新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました(75.17% → 91.68%)

新たな人工知能の研究は、マルチモーダルな連鎖思考推論を提案し、GPT-3.5の結果を16%上回りました(91.68%)

最近の技術の進展により、大規模言語モデル(LLM)は複雑で洗練された推論タスクで非常に優れた成績を収めています。これは、デモンストレーションのプロンプトに対して中間の推論ステップを生成することによって実現されます。これはチェーン・オブ・ソート(CoT)プロンプティングとも呼ばれます。しかし、CoTに関する現在の研究のほとんどは言語モダリティに焦点を当てており、マルチモーダルなCoT推論を抽出するために、研究者はしばしばマルチモーダル-CoTパラダイムを使用します。マルチモーダル-CoTは、ビジョンや言語など、さまざまなモダリティの入力がある場合でも、多段階の問題を中間の推論プロセスに分割し、最終的な出力を生成します。マルチモーダル-CoTを実行する最も人気のある方法の1つは、LLMにCoTを実行する前に、複数のモダリティからの入力を単一のモダリティに組み合わせることです。しかし、この方法にはいくつかの欠点があります。1つは、データを1つのモダリティから別のモダリティに変換する際に生じる重要な情報の損失です。マルチモーダルなCoT推論を実現する別の方法は、ビジョンと言語のさまざまな特徴を組み合わせて、小さな言語モデルを微調整することです。

ただし、このアプローチの主な問題は、これらの言語モデルが幻覚的な推論パターンを生成する傾向があることであり、これが回答推論に大きな影響を与えます。そのようなエラーの影響を軽減するために、Amazonの研究者はビジュアル特徴を分離されたトレーニングフレームワークで組み合わせるMultimodal-CoTを提案しました。このフレームワークは、推論プロセスを2つのフェーズに分割します:根拠生成と回答推論。モデルは、ビジョンの側面を両方のステージに取り入れることで、より説得力のある議論を生成し、より正確な回答推論を作成するのに役立ちます。この研究は、異なるモダリティでのCoT推論を研究した最初のものです。Amazonの研究者によって提供された技術は、ScienceQAベンチマークで最先端のパフォーマンスを発揮し、GPT-3.5の正確さを16%上回り、人間のパフォーマンスを上回りました。

マルチモーダル回答CoTの推論と推論生成のステージは、同じモデルアーキテクチャを使用しており、入力と出力の種類が異なります。ビジョン-言語モデルの例を取ると、モデルは根拠生成の段階で視覚と言語の両ドメインのデータを受け取ります。根拠が生成されると、回答推論のステップで初期の言語入力に追加され、次のステージの言語入力のためのデータが作成されます。モデルは、更新されたデータを受け取り、所望の結果を生成するためにトレーニングされます。エンコーディング、インタラクション、デコーディングの3つの主要な機能を実行するトランスフォーマーベースのモデルが基盤となっています。要するに、言語テキストはTransformerエンコーダに供給され、テキスト表現が作成されます。このテキスト表現は、ビジョン表現と組み合わされ、Transformerデコーダに供給されます。

彼らの手法の有効性を評価するために、研究者はScienceQAベンチマークで多くのテストを実施しました。ScienceQAベンチマークは、注釈付き回答が含まれる21,000以上のマルチモーダルな科学の質問からなる大規模なデータセットです。研究者は、その手法がベンチマークで従来の最先端のGPT-3.5モデルを16%上回ると結論付けました。要するに、Amazonの研究者は、マルチモーダル-CoTを実行するためにビジョンと言語の表現を組み合わせるために言語モデルを微調整するという2段階のフレームワークを提案し、情報的な根拠を生成して最終回答を推論するモデルを生成します。モデルのGitHubリポジトリは以下からアクセスできます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

CipherChatをご紹介します:安全なアライメントの一般化を非自然言語、具体的には暗号に対して体系的に検証するためのAIフレームワーク

I had trouble accessing your link so I’m going to try to continue without it. 人工知能(AI)システムは、大規模...

AI研究

このAI研究は、ロボット学習および具現化人工知能の研究のための包括的なソフトウェアプラットフォームとエコシステムであるRoboHiveを提案しています

近年、人工知能(AI)の進歩は、言語モデリング、タンパク質折りたたみ、およびゲームプレイなどで特に顕著なものがありまし...

機械学習

『Generative AIがサイバーセキュリティを強化する3つの方法』

人間のアナリストは、サイバーセキュリティ攻撃の速度と複雑さに対して効果的に防御することができなくなっています。データ...

データサイエンス

大規模な言語モデル:DeBERTa — デコーディング強化BERTと解釈された注意力

最近、BERTは多くの自然言語処理の課題で第一のツールとなりました情報の処理と理解、高品質の単語埋め込みの構築能力に優れ...

AIニュース

サイバー犯罪者がWormGPTを使用してメールセキュリティを侵害

サイバー犯罪の絶え間ない変化は、新たな危険なツールの登場をもたらしました。OpenAIのChatGPTや悪名高いサイバー犯罪ツール...

機械学習

「アマゾンベッドロックを使った商品説明の自動生成」

今日の常に進化するeコマースの世界では、魅力的な製品の説明の影響は過小評価できませんそれは潜在的な訪問者を支払いをする...