MITとマイクロソフトの研究者が、DoLaという新しいAIデコーディング戦略を紹介しましたこれは、LLMsにおける幻覚を減らすことを目的としています

MITとマイクロソフトの研究者がDoLaという新しいAIデコーディング戦略を紹介しましたこれは、LLMsにおける幻覚を減らすことを目的としています

大規模言語モデル(LLM)の利用により、多くの自然言語処理(NLP)アプリケーションが大きな恩恵を受けてきました。LLMは性能が向上し、スケールアップにより追加の機能を獲得しましたが、事前トレーニング中に検出された実世界の事実と一致しない情報を「幻覚」する問題を抱えています。これは高リスクなアプリケーション(臨床や法的な設定など)において、信頼性のあるテキストの生成が不可欠な場合には、採用の障害となります。

データとモデルの分布の間の前方KLダイバージェンスを最小化しようとする最尤言語モデリングのターゲットが、LLMの幻覚の原因かもしれません。しかし、これは確証されているわけではありません。この目標を追求する場合、LMは、トレーニングデータにエンコードされた知識と完全に一致しないフレーズに非ゼロの確率を割り当てる場合があります。

モデルの解釈可能性の観点からは、トランスフォーマーの初期レイヤーは「低レベル」の情報(品詞タグなど)をエンコードすることが示されています。対照的に、後のレイヤーはより「意味的な」情報をエンコードします。

MITとMicrosoftの研究者グループは、このモジュラーな知識のエンコードを利用して、より深いレベルからの情報を優先し、中間または浅いレベルの情報を軽視することで、LMの事実の知識を増やすための対照的なデコーディング戦略を提案しています。

彼らの最近の研究は、Decoding by Contrasting Layers(DoLa)という新しいデコーディング手法を紹介しています。提案された手法は、外部の知識を取得したり、さらなる微調整を行ったりせずに、LLMにエンコードされた事実知識の露出を改善することに基づいています。

DoLaは、TruthfulQAおよびFACTORの両方でLLaMAファミリーモデルの整合性を改善する実験的な証拠が示されています。StrategyQAとGSM8K ccの両方で、連鎖思考の推論に関する追加の実験は、事実の推論を改善する可能性を示しています。最後に、GPT-4で評価されたオープンエンドのテキスト生成の実験結果は、DoLaが情報を提供し、元のデコーディング手法と比較して優れた評価を導くより事実に基づく応答を生成することができることを示しています。DoLaは、LLMの信頼性を高めるためのデコーディング手法であり、研究結果はデコーディングプロセスにわずかな時間しか追加しないことを示しています。

研究者たちは、他のドメイン(指示の従順性や人間のフィードバックへの反応など)でのモデルのパフォーマンスを調査していません。また、人間のラベルや事実情報源を利用して微調整するのではなく、チームは既存のアーキテクチャとパラメータに依存しており、可能な改善の範囲を制限しています。特定の回収強化LMとは異なり、この手法は完全にモデルの既存の知識に依存しており、外部の回収モジュールを介して新しい情報を追加することはありません。チームは、将来の研究が上記のコンポーネントをデコーディング技術に組み込んで制限を克服するのに役立つことを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「コンピュータビジョンと言語モデルが見たものを理解する手助け」

研究者は、概念的な情報を理解する能力を向上させるために、合成データを使用してモデルを改善しますこれにより、自動キャプ...

機械学習

Google Cloudを使用してレコメンドシステムを構築する

Google CloudのRecommendation AIを使用して、高度な推薦システムを実装してください

機械学習

「GPUの加速なしで大規模なシーンをリアルタイムでマッピングできるのか?このAI論文は、高度なLiDARベースの位置特定とメッシュ作成のために「ImMesh」を紹介します」

実際の世界にマッチする仮想環境を提供することで、メタバース、VR / AR、ビデオゲーム、物理シミュレータを含む3Dアプリケー...

機械学習

「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介...

機械学習

ハイパーパラメータ最適化のためのトップツール/プラットフォーム2023年

ハイパーパラメータは、モデルの作成時にアルゴリズムの振る舞いを制御するために使用されるパラメータです。これらの要因は...