「大規模な言語モデルは、多肢選択問題の選択の順序に敏感なのか」という新しいAI研究に答える

新しいAI研究の質問に答えるための大規模な言語モデルの選択順序の敏感さ

大規模言語モデル(LLM)は、様々なタスクで優れたパフォーマンスを発揮するため、非常に注目を集めています。これらのモデルは、監督モデルや一部の状況では人間さえも凌駕することが頻繁にあります。しかし、これらのモデルの機能的な制約は、実世界での有用性に影響を与える可能性があるという以前の研究結果が示しています。これらのモデルは、プロンプト言語の微妙なニュアンス、フューショットデモンストレーション、およびこれらのデモンストレーションの組織に対する感度が大きなパフォーマンスの問題となっています。この感度は、LLMの能力の客観的評価を妨げます。

Megagon Labsの最近の研究では、研究者グループが複数選択問題の取り扱いにおけるLLMの堅牢性を研究しました。複数選択問題は、推論能力や事実の取得能力をテストするための人気のある課題です。調査の主な焦点は、複数選択テストの選択肢の並び替えに対するLLMの反応です。回答選択肢が変更されると、詳細な研究の結果、複数のベンチマークで約13%から75%までのパフォーマンスの差が明らかになります。

徹底的な分析の結果、観察された感度は、LLMが予測のトップ2またはトップ3のオプション間で確信が持てない場合に発生するという仮説が提案されました。質問の文言によって引き起こされる位置バイアスにより、一部のオプションの順序はこれらのトップ選択肢の中でいくつかの予測を好む傾向があります。トップ2のオプションには、モデルの傾向を強調または軽減する興味深いパターンが見られることがあります。

バイアスを強調するためにチームが使用した最適戦略は、トップ2リストの最初と最後の選択肢を順番に配置することです。一方、バイアスを緩和するためにこれらの選択肢を周囲のオプションに散らばらせることが提案されています。仮説化された感度を検証するためにさまざまな研究が行われました。さらに、2つの異なるキャリブレーション技術を使用して、LLMの予測を改善しました。数多くのモデルとベンチマークで最大8パーセントポイントのパフォーマンス向上が見られ、顕著な改善がもたらされました。

この研究は、LLMのプロンプトの側面とその配置に対する感度に直面する必要性を強調しています。複数選択問題の並び替えられた選択肢への回答の微妙なニュアンスを調査することにより、LLMの意思決定手続きに光を当てることができました。これにより、LLMの実世界での利用可能性と信頼性が向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AI 幻覚の危険性:課題と影響の解明

「AIの幻覚に魅了される探求に乗り出しましょう ― その複雑な原因を解明し、結果をナビゲートし、重要な保護策を見つけましょ...

機械学習

「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」

ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパー...

AI研究

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモ...

機械学習

テストに合格する:NVIDIAがMLPerfベンチマークでジェネラティブAIのトレーニングをターボチャージします

NVIDIAのAIプラットフォームは、最新のMLPerf業界ベンチマークにおいて、AIトレーニングとハイパフォーマンスコンピューティ...

AI研究

ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した

NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に...

機械学習

Falcon-7Bの本番環境への展開

これまでに、ChatGPTの能力と提供するものを見てきましたしかし、企業利用においては、ChatGPTのようなクローズドソースモデ...