Learn more about Search Results Yi - Page 50

「ソフトウェア開発者のための機械学習フレームワークの探求」

この記事では、ソフトウェア開発における機械学習フレームワークの重要性を探求し、人気のあるフレームワークについての洞察を提供しています

「研究:社会的に意識した時間的因果関係デコーダー推薦システム」

エルタイエブ・アフメド(リサーチエンジニア)とサブラジット・ロイ(シニアリサーチサイエンティスト)によるGoogle Researchの投稿 読書には、言語能力や生活スキルの向上など、若い学生に多くの利益があります。また、楽しみのための読書は学業の成功と相関することが示されています。さらに、学生は読書によって感情の幸福感が向上し、一般的な知識や他の文化の理解も向上すると報告しています。オンラインやオフラインの読み物が非常に多いため、適切な年齢層に合った関連性の高い興味を引くコンテンツを見つけることは難しい課題ですが、学生が読書に没頭するためには必要なステップです。関連性の高い読み物を効果的に推薦することは、学生の読書を継続させるのに役立ちます。これが機械学習(ML)が役立つ場所です。 MLは、動画から書籍、eコマース商品まで、さまざまな種類のデジタルコンテンツにおいて推薦システムの構築に広く使用されています。推薦システムは、ユーザーに関連性の高い興味を引くコンテンツを提示するために、さまざまなデジタルプラットフォームで使用されています。これらのシステムでは、ユーザーの好み、ユーザーの関与度、および推薦されるアイテムに基づいて、各ユーザーにアイテムを提案するためのMLモデルがトレーニングされます。これらのデータは、モデルが興味を引く可能性のあるアイテムを推薦できるようにするための強力な学習信号を提供し、ユーザーエクスペリエンスを向上させます。 「STUDY:社会的に意識した時間的因果デコーダ推薦システム」という論文では、教育の設定でのオーディオブックのコンテンツ推薦システムを紹介しています。このシステムでは、読書の社会的な性質を考慮しています。私たちは教育非営利団体であるLearning Allyとのパートナーシップを通じてSTUDYアルゴリズムを開発しました。Learning Allyは、学生に学校全体の購読プログラムを通じてオーディオブックを提供することを目的としています。Learning Allyの図書館には、さまざまなオーディオブックがあります。私たちの目標は、学生が自分の読書体験と関与を高めるための適切なコンテンツを見つけるのを支援することです。私たちは、同じクラスにいる学生の読書関与の履歴を共同で処理することで、現在のトレンドに基づいてモデルが学生のローカライズされたソーシャルグループ(この場合は教室)内でトレンドになっているものを利用するようにしました。 データ Learning Allyには、学生を対象とした豊富なデジタルオーディオブックのライブラリがあり、学生の学習成果を向上させるためのソーシャル推薦モデルの構築に適しています。私たちは2年分の匿名化されたオーディオブックの消費データを受け取りました。データ中のすべての学生、学校、およびグループは匿名化されており、Googleによって追跡できないランダムに生成されたIDでのみ識別されます。さらに、潜在的に識別可能なメタデータは集計形式でのみ共有され、学生や機関が再識別されることを防ぐためです。データには、学生のオーディオブックとの相互作用のタイムスタンプ付きレコードが含まれています。各相互作用には匿名化された学生ID(学生の学年と匿名化された学校IDを含む)、オーディオブックの識別子、および日付があります。多くの学校では、1つの学年の学生を複数の教室に分けていますが、このメタデータを活用して、同じ学校と同じ学年のすべての学生が同じ教室にいるという単純化された仮定を行います。これにより、より良いソーシャル推薦モデルを構築するために必要な基盤が提供されますが、個人、クラスグループ、学校を再識別することはできません。 STUDYアルゴリズム 私たちは、クリックスルー率の予測問題として推薦問題を構築しました。つまり、各特定のアイテムとの相互作用におけるユーザーがアクションを起こす条件付き確率をモデル化するものです。このモデル化には、Google Researchが開発した広く使用されているTransformerベースのモデルクラスが適しているという以前の研究結果があります。各ユーザーが個別に処理されると、これは自己回帰的なシーケンスモデリング問題になります。私たちはこの概念的なフレームワークを使用してデータをモデル化し、その後、STUDYアプローチを作成するためにこのフレームワークを拡張しました。 このクリックスルー率予測アプローチでは、個々のユーザーの過去と将来のアイテムの好みの依存関係をモデル化することができますが、推論時に異なるユーザー間の依存関係をモデル化することはできません。読書の社会的な性質を認識し、この欠点を補うために、私たちはSTUDYモデルを開発しました。このモデルでは、各学生が読んだ複数の本のシーケンスを1つのシーケンスに連結し、単一の教室内の複数の学生からデータを収集します。 しかし、このデータ表現はtransformerによってモデル化される場合には注意が必要です。transformerでは、注意マスクは入力がどの出力の予測に情報を提供できるかを制御する行列です。出力の予測に先行するすべてのトークンを入力に使用するパターンは、因果デコーダで伝統的に見られる上三角の注意行列につながります。しかし、STUDYモデルに供給されるシーケンスは時間的に順序づけられていないため、その構成要素の各部分シーケンスは時間的に順序づけられています。標準的な因果デコーダは、このシーケンスには適していません。各トークンを予測しようとするとき、モデルは展開時には利用できない後続のトークンすべてにアテンションを向けることは許されません。これらのトークンのいくつかは、後のタイムスタンプを持ち、展開時に利用できる情報を含んでいる可能性があります。 この図では、通常、因果デコーダで使用されるアテンションマスクを示しています。各列は出力を表し、各列が出力を表します。特定の位置の行列エントリの値が1(青で表示される)である場合、モデルは対応する列の出力を予測する際にその行の入力を観察できることを示し、値が0(白で表示される)である場合はその逆を示します。 STUDYモデルは、時間刻みに基づいた柔軟なアテンションマスクを使用して、因果トランスフォーマーをベースに構築します。通常のトランスフォーマーでは、異なる部分列間でのアテンションを許可せず、シーケンス内では三角形の行列マスクが使用されますが、STUDYではシーケンス内で因果律のある三角形のアテンション行列を維持し、タイムスタンプに依存する柔軟な値を持つアテンションを異なるシーケンス間で許可します。したがって、シーケンス内の任意の出力ポイントでの予測は、その時点に対して過去に発生したすべての入力ポイントによって通知されます。これは、シーケンス内の現在の入力の前後に表示されるかどうかに関係なく、実際の世界の展開には利用できない未来の情報を使用して予測することを学習しないように、訓練時に強制される因果関係の制約が重要です。 (a)では、各ユーザーを個別に処理する因果律アテンションを持つ順次自己回帰トランスフォーマを示しています。 (b)では、同じ計算結果をもたらす同等の共同順送信を示しています。最後に、 (c)では、アテンションマスクに新しい非ゼロの値(紫で表示)を導入することで、ユーザー間で情報の流れを許可します。これにより、予測は同じユーザーからの相互作用に限らず、過去のタイムスタンプとのすべての相互作用に依存することができます。 実験 私たちは、比較のために複数のベースラインとともにSTUDYモデルを学習するためにLearning Allyデータセットを使用しました。私たちは、個別と呼んでいる自己回帰クリックスルーレートトランスフォーマーデコーダ、k最近傍法ベースライン(KNN)、および比較可能なソーシャルベースラインであるソーシャルアテンションメモリネットワーク(SAMN)を実装しました。訓練には最初の学年のデータを使用し、検証およびテストには2番目の学年のデータを使用しました。…

マルチアームバンディットを用いた動的価格設定:実践による学習

意思決定の問題の広大な世界において、一つのジレンマが特に強化学習の戦略によって所有されています:探索と活用スロットマシンが並ぶカジノに入っていると想像してください...

「バイアス調整の力を明らかにする:不均衡なデータセットにおける予測精度の向上」

データサイエンスの領域では、不均衡なデータセットを効果的に管理することが正確な予測には重要です主要なクラスの差異が顕著な不均衡なデータセットは、バイアスを引き起こす可能性があります...

「探索的データ分析の改善のための実践的なヒント」

探索的データ分析(EDA)は、機械学習モデルを使用する前に必要なステップですEDAプロセスでは、データアナリストとデータサイエンティストにとって集中力と忍耐力が必要です:事前に…

「インデックスを使用してSQLクエリの処理速度を向上させる方法[Python版]」

Pythonの組み込みsqlite3モジュールを使用してSQLiteデータベースを操作する方法を学びますまた、クエリの高速化のためにインデックスを作成する方法も学びます

「ステレオタイプやディスインフォメーションに対抗するAIヘイトスピーチ検出」

AIがどのようにヘイトスピーチやステレオタイプと戦い、AIベースの対話とヘイトスピーチ検出技術を使って安全なオンラインコミュニティを育成しているかを学びましょう

Salesforceの研究者は、XGen-Image-1を導入しました:複数の事前学習済みコンポーネントを再利用するために訓練されたテキストから画像への潜在的な拡散モデル

画像生成は、人工知能(AI)の中で先駆的な分野として登場し、マーケティング、営業、および電子商取引の領域において前例のない機会を提供しています。AIと視覚的コンテンツ作成の融合は、デジタルコミュニケーションの新たな時代を迎え、ビジネスがオーディエンスとの関係を根本的に変えることを意味しています。技術が進化するにつれて、テキストと画像の間のギャップは徐々に縮まり、創造力の領域が開かれています。 この急速に変化する風景の中で、Salesforce Researchチームは画期的なイノベーションであるXGen-Image-1を紹介しています。この画期的な生成型AIは、テキストを画像に変換することに特化しています。画像生成拡散モデルの能力を活用することで、XGen-Image-1は視覚領域を再構築する可能性を秘めています。このモデルのトレーニングは、TPUとLAIONデータセットを使用して$75,000の予算で行われ、注目すべき成果を示しています。そのパフォーマンスは、高い評価を受けているStable Diffusion 1.5/2.1モデルと同等です。 チームのブレークスルーの核心には、転換的な発見があります。潜在モデルである変分オートエンコーダ(VAE)と容易にアクセスできるアップサンプラーの融合が主役です。この革新的な組み合わせにより、32×32などの驚くべき低解像度でのトレーニングが可能になり、簡単に高解像度の1024×1024画像を生成することができます。このイノベーションにより、画像の品質を損なうことなくトレーニングコストが大幅に削減されます。チームの緻密なアプローチにより、自動的な棄却サンプリング、PickScore評価、および推論中の改善が戦略的に行われ、高品質の画像が一貫して生成され、技術の信頼性が高まります。 さらに深く掘り下げると、チームはその手法の複雑な層を解明しています。XGen-Image-1は、ピクセルベースの拡散モデルと潜在ベースの拡散モデルを調和させる潜在的拡散モデルのアプローチを採用しています。ピクセルベースのモデルは個々のピクセルを直接操作しますが、潜在ベースのモデルは圧縮された空間領域でのノイズ除去されたオートエンコード画像表現を活用します。チームの探求は、トレーニング効率と解像度のバランスにおける事前学習されたオートエンコーディングとピクセルアップサンプリングモデルの統合につながります。 データの役割は非常に重要です。XGen-Image-1のトレーニングプロセスの基盤となるLAION-2Bデータセットは、4.5以上の美的評価に基づいて慎重にキュレーションされたものです。この広範なデータセットは、多様で現実的な画像を生成するモデルの能力を高めます。TPU v4を使用してトレーニングインフラストラクチャを最適化することは、チームの革新的な問題解決力を強調しており、ストレージとチェックポイント保存の課題に熟練した対処を行っています。 パフォーマンス評価は、XGen-Image-1の能力の試金石となります。Stable Diffusion 1.5および2.1モデルとの比較分析により、CLIPスコアやFIDなどの優れた指標が示されています。特に、このモデルは迅速な整合性と写真のようなリアリズムに優れており、FIDスコアではStable Diffusionモデルを上回り、競争力のある人間評価パフォーマンスを示しています。棄却サンプリングの統合は、画像出力の改善における効果的なツールとして浮かび上がり、不十分な要素の向上には埋め込み技術などの戦略的な手法が補完されます。 XGen-Image-1の出現は、Salesforce Researchチームの不断のイノベーションへの取り組みを象徴しています。彼らの潜在モデル、アップサンプラー、自動化戦略のシームレスな融合は、創造的な景観を再構築するジェネレーティブAIの可能性を体現しています。開発が進むにつれて、チームの洞察力はAIによる画像作成の軌道を形作り、産業や観客に響く変革的な進歩の道を開くことになります。

「データサイエンスは難しいのか?現実を知ろう」

過去数年間、熟練なデータサイエンティストへの需要は増加してきましたが、AIによって風景は変わりました。重点はルーチンタスクからより複雑な役割に移りました。最新のデータサイエンスの進歩にしっかりと理解を持つことは、有望なキャリアに欠かせません。データサイエンスは難しいのでしょうか?学習の道は本質的に簡単または難しいものではありませんが、データサイエンスには険しい学習曲線があります。しかし、常に最新の情報にアップデートし続ける意欲を持ち続けることで、課題にもかかわらず、旅はよりスムーズになることがあります。 データサイエンスを学ぶ価値はあるのでしょうか? 企業は主にデータの潜在能力を活用して意思決定を行っています。このタスクはデータサイエンスを通じて貢献された技術的進歩を用いて行われます。それはその分野で優れた能力を持つ専門家によって処理されます。したがって、データサイエンスは、キャリアを選ぶ個人や成長のためにそれを利用する組織にとって有望な機会を提供しています。数多くの課題と連続的な進化のプラットフォームを提供することで、この分野は非常にダイナミックであり、自己のマインドセットと知識を磨くために最適です。データサイエンスの高い価値により、「データサイエンスは難しいのか」という質問は無意味です。 データサイエンスが良いキャリア選択肢なのかどうかを知るために、この記事を読んでください! データサイエンティストはコーディングをするのでしょうか? データサイエンティストは膨大な量のデータを扱います。これらに取り組むためには、プログラミング言語RとPythonの習熟が必要です。そのようなデータの処理には基本的なコーディングの知識が必要です: クリーニング、前処理、データ変換 Matplotlibやggplot2などのPythonとRのライブラリやツールを使ってインサイトを伝えるための支援 統計分析、機械学習、データモデリング データ関連の問題に対するカスタマイズされたソリューションの作成 データの前処理、結果の評価、モデルのトレーニングなどの繰り返しタスク アイデアや仮説の素早いテスト アルゴリズムによるパターンの識別 データサイエンスの多面的な性質 データサイエンスは、多くの分野を包括する広範な分野です: 統計学:確率、回帰分析、仮説検定、実験設計の理解は、正確かつ意味のある分析には重要です。 プログラミングとデータ操作:いくつかのデータ最適化技術や専門ソフトウェアを用いたプログラミング言語の知識 ドメイン知識:産業固有の知識、ビジネスプロセス、適切な質問の提起、関連する特徴の選択、結果の解釈など コミュニケーション:技術的な観点と非技術的な観点の両方と対話し、明確かつ正確に自分自身を理解して伝える能力 この情報は、データの処理、データのコミュニケーション、データの取り扱いに必要な技術的な専門知識の重要性を示しています。産業固有の知識と問題解決能力を持つことで、データサイエンスの効率は何倍にも向上し、個人のビジネスやキャリアに役立ちます。 学習曲線と継続的な学習 データサイエンスは絶えず進化する分野であり、継続的な学習が必要です。初心者の学習曲線は険しいものであり、プログラミング言語の学習に直面する課題があるためです。 では、「データサイエンスは難しいのか?」いいえ、データサイエンスの知識と興味を持った個人にとっては難しくありません。ただし、データサイエンスの分野での定期的かつ急速な進歩は、分野内で最新の情報にアップデートし続ける必要性を増大させています。 例えば、現在の進歩としては、自動機械学習やエッジコンピューティングの導入があります。トップのデータサイエンスのトレンドはTinyML、small…

「ディープラーニングの解説:ニューラルネットワークへの学生の入門」

ディープラーニングは、現代の時代において最も影響力のある技術の一つとして急速に進化しています音声認識アシスタントから医療画像解析まで、その応用はさまざまな産業において持つ広範な能力と潜在力を示していますこの記事の本質は、ディープラーニングの複雑に見える世界を分かりやすい部分に分解することです... ディープラーニングの謎を解く:ニューラルネットワークへの学生の入門 詳細を読む »

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us