メタリサーチは、システム2アテンション(S2A)を導入します:入力コンテキストの重要な部分を決定するためのAI技術で、優れた応答を生成する能力がございます
『メタリサーチ:S2Aシステム導入により、AI技術で入力コンテキストの重要な部分を決定し、優れた応答を生成』
大型言語モデル(LLM)は、さまざまな言語タスクにおいて非常に優れた能力を示していますが、非常に単純なミスを犯すことがあります。関連性のない文脈から誤った判断をすることがあったり、シコファンシーと呼ばれる問題を示すこともあります。シコファンシーとは、モデルが入力テキストに同意するものの、それが間違っている場合です。研究者たちは、教師ありトレーニングデータを増やすことや、強化学習の戦略を用いることでこれらの問題に取り組んできました。しかし、より効果的な解決策は、トランスフォーマーのアーキテクチャに潜在的なボトルネックを修正することです、特にアテンションメカニズムです。
トランスフォーマー内のソフトアテンションは、関連のない塊を含む大部分の入力テキストに重要性を付ける傾向があります。さらに、トレーニングの方法により、繰り返されたトークンに重点を置きすぎるため、上記の問題が生じることがあります。Metaの研究チームが紹介したSystem 2 Attention(S2A)という新しい手法は、命令にチューニングされたLLMを利用して、入力コンテキストの最も関連性のある部分を特定・抽出し、不必要な情報の影響を軽減するものです。この方法のさらなる利点は、人間が注意を扱う方法と同様に、LLMの注意の焦点を制御することが可能となることです。
トランスフォーマー内のアテンションメカニズムは、テキスト内の相関関係を特定することを可能にします。これはモデルの次の単語予測能力を向上させますが、同じくらい偽相関に惑わされやすくもなります。テキスト内の繰り返し単語の確率は、各反復で増加し、特定のトピックに固執するような正のフィードバックループを作り出します。S2Aの動作方法は、まずコンテキストから不要な部分を削除し、同じものを再生成し、それを元のテキストの代わりに使用して最終結果を出力することです。
- 中国のこのAI研究は、AIの幻覚を探求する:大型言語モデルにおける幻視に深く潜る
- このAI研究では、ドライブ可能な3Dガウスアバター(D3GA)を提案します:ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです
- マイクロソフトリサーチと清華大学の研究者たちは、「思考の骨格(SoT):LLMの生成を加速するための新しい人工知能の手法」という提案を行いました
研究者たちは、自身の手法のパフォーマンスをテストするためにさまざまな実験を行いました。以下の結果を得ました:
- S2Aは、意見のある質問に対する事実性の観点からモデルのパフォーマンスを向上させます。
- S2Aは、長文生成における客観性を向上させ、意見に易々と惑わされないことを示しています。
- さらに、S2Aは、関連のない文を含む数学の問題においてもモデルのパフォーマンスを向上させます。
研究者たちはまた、S2Aの異なるバリエーション(関連性に焦点を当てることや、不必要な単語を削除した後も元のコンテキストを保持することなど)をテストしました。いくつかの実験では、バリエーションは元の手法ほど優れたパフォーマンスを発揮しなかったことがわかりました。
関連性のない情報をバイパスできる方法であるとしても、それには影響を受ける可能性があります。また、通常のLLM再生成に比べて計算コストが高くなります。ただし、この問題はスピードアップのトリックを用いることで解決できる可能性があり、研究者は将来の作業に回す予定です。全体として、S2Aは、LLMがテキストの重要でない部分に執着するのを防止し、モデルの能力を向上させる方法です。この技術は、意見の促進や関連のない文を含む数学の問題に取り組む際のモデルのパフォーマンスを向上させます。しかし、推論力を向上させるためには、さらなる改善の余地が残されており、代替の方法を探求する余地があります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 複雑なAIモデルの解読:パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換
- NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ
- マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています
- アリババの研究者らがQwen-Audioシリーズを発表 ユニバーサルな音声理解能力を備えた大規模な音声言語モデルのセット
- ペンシルバニア大学の研究者たちは、OpenAIのChatGPT-Visionに対して、一連のテストを実施することで、ビジョンベースのAI機能の有効性を評価するための機械学習フレームワークを開発しました
- UCバークレーとSJTU中国の研究者が、言語モデルのベンチマークと汚染を再考するための「再表現サンプル」の概念を紹介しました
- 南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク