新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました(75.17% → 91.68%)

新たな人工知能の研究は、マルチモーダルな連鎖思考推論を提案し、GPT-3.5の結果を16%上回りました(91.68%)

最近の技術の進展により、大規模言語モデル(LLM)は複雑で洗練された推論タスクで非常に優れた成績を収めています。これは、デモンストレーションのプロンプトに対して中間の推論ステップを生成することによって実現されます。これはチェーン・オブ・ソート(CoT)プロンプティングとも呼ばれます。しかし、CoTに関する現在の研究のほとんどは言語モダリティに焦点を当てており、マルチモーダルなCoT推論を抽出するために、研究者はしばしばマルチモーダル-CoTパラダイムを使用します。マルチモーダル-CoTは、ビジョンや言語など、さまざまなモダリティの入力がある場合でも、多段階の問題を中間の推論プロセスに分割し、最終的な出力を生成します。マルチモーダル-CoTを実行する最も人気のある方法の1つは、LLMにCoTを実行する前に、複数のモダリティからの入力を単一のモダリティに組み合わせることです。しかし、この方法にはいくつかの欠点があります。1つは、データを1つのモダリティから別のモダリティに変換する際に生じる重要な情報の損失です。マルチモーダルなCoT推論を実現する別の方法は、ビジョンと言語のさまざまな特徴を組み合わせて、小さな言語モデルを微調整することです。

ただし、このアプローチの主な問題は、これらの言語モデルが幻覚的な推論パターンを生成する傾向があることであり、これが回答推論に大きな影響を与えます。そのようなエラーの影響を軽減するために、Amazonの研究者はビジュアル特徴を分離されたトレーニングフレームワークで組み合わせるMultimodal-CoTを提案しました。このフレームワークは、推論プロセスを2つのフェーズに分割します:根拠生成と回答推論。モデルは、ビジョンの側面を両方のステージに取り入れることで、より説得力のある議論を生成し、より正確な回答推論を作成するのに役立ちます。この研究は、異なるモダリティでのCoT推論を研究した最初のものです。Amazonの研究者によって提供された技術は、ScienceQAベンチマークで最先端のパフォーマンスを発揮し、GPT-3.5の正確さを16%上回り、人間のパフォーマンスを上回りました。

マルチモーダル回答CoTの推論と推論生成のステージは、同じモデルアーキテクチャを使用しており、入力と出力の種類が異なります。ビジョン-言語モデルの例を取ると、モデルは根拠生成の段階で視覚と言語の両ドメインのデータを受け取ります。根拠が生成されると、回答推論のステップで初期の言語入力に追加され、次のステージの言語入力のためのデータが作成されます。モデルは、更新されたデータを受け取り、所望の結果を生成するためにトレーニングされます。エンコーディング、インタラクション、デコーディングの3つの主要な機能を実行するトランスフォーマーベースのモデルが基盤となっています。要するに、言語テキストはTransformerエンコーダに供給され、テキスト表現が作成されます。このテキスト表現は、ビジョン表現と組み合わされ、Transformerデコーダに供給されます。

彼らの手法の有効性を評価するために、研究者はScienceQAベンチマークで多くのテストを実施しました。ScienceQAベンチマークは、注釈付き回答が含まれる21,000以上のマルチモーダルな科学の質問からなる大規模なデータセットです。研究者は、その手法がベンチマークで従来の最先端のGPT-3.5モデルを16%上回ると結論付けました。要するに、Amazonの研究者は、マルチモーダル-CoTを実行するためにビジョンと言語の表現を組み合わせるために言語モデルを微調整するという2段階のフレームワークを提案し、情報的な根拠を生成して最終回答を推論するモデルを生成します。モデルのGitHubリポジトリは以下からアクセスできます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

「2023年の最高のAI文法チェッカーツール」

Grammarly  Grammarlyは、人工知能によって強力にサポートされたウェブベースのライティングチューターです。文法、スペル、...

AI研究

腫瘍の起源の解読:MITとDana-Farber研究者が機械学習を活用して遺伝子配列を分析する方法

MITとDana-Farber Cancer Instituteの画期的な共同研究により、機械学習の力ががん治療における困難な課題に取り組むために活...

AIテクノロジー

世界のトップ10の生成AI企業

イントロダクション 人工知能(AI)は、ビジネスの働き方を変革する力を持つ強力なテクノロジーです。AIの素晴らしい側面の一...

機械学習

「機械学習プロジェクトのための最高のGitHubの代替品」

「GitHubに似た機能と機能を提供するいくつかのプラットフォームやサイトを見てみましょうこれらは簡単にGitHubに対抗できる...

AIニュース

アマゾンセージメーカーの地理空間機能を使用して、齧歯類の被害を分析する

「ネズミやネズミなどのげっ歯類は、多くの健康リスクと関連しており、35以上の病気を広めることが知られています高いネズミ...

コンピュータサイエンス

「なりすまし検出機能は、ソーシャルメディア上の偽アカウントからブランドやパーソナリティを保護する」

カナダの企業は、そのソーシャルメディアモニタリングプラットフォームになりすまし防止機能を組み込んでいます