「大規模な言語モデルは、多肢選択問題の選択の順序に敏感なのか」という新しいAI研究に答える
新しいAI研究の質問に答えるための大規模な言語モデルの選択順序の敏感さ
大規模言語モデル(LLM)は、様々なタスクで優れたパフォーマンスを発揮するため、非常に注目を集めています。これらのモデルは、監督モデルや一部の状況では人間さえも凌駕することが頻繁にあります。しかし、これらのモデルの機能的な制約は、実世界での有用性に影響を与える可能性があるという以前の研究結果が示しています。これらのモデルは、プロンプト言語の微妙なニュアンス、フューショットデモンストレーション、およびこれらのデモンストレーションの組織に対する感度が大きなパフォーマンスの問題となっています。この感度は、LLMの能力の客観的評価を妨げます。
Megagon Labsの最近の研究では、研究者グループが複数選択問題の取り扱いにおけるLLMの堅牢性を研究しました。複数選択問題は、推論能力や事実の取得能力をテストするための人気のある課題です。調査の主な焦点は、複数選択テストの選択肢の並び替えに対するLLMの反応です。回答選択肢が変更されると、詳細な研究の結果、複数のベンチマークで約13%から75%までのパフォーマンスの差が明らかになります。
徹底的な分析の結果、観察された感度は、LLMが予測のトップ2またはトップ3のオプション間で確信が持てない場合に発生するという仮説が提案されました。質問の文言によって引き起こされる位置バイアスにより、一部のオプションの順序はこれらのトップ選択肢の中でいくつかの予測を好む傾向があります。トップ2のオプションには、モデルの傾向を強調または軽減する興味深いパターンが見られることがあります。
- CMU(カーネギーメロン大学)と清華大学の研究者が提案した「Prompt2Model:自然言語の指示から展開可能なAIモデルを生成する汎用メソッド」
- ETHチューリッヒの研究者が、大規模な言語モデル(LLM)のプロンプティング能力を向上させるマシンラーニングフレームワークであるGoT(Graph of Thoughts)を紹介しました
- UCSFとUC Berkeleyの研究者たちは、脳幹の脳卒中による重度の麻痺を持つ女性がデジタルアバターを通じて話すことができるようにする脳-コンピューターインタフェース(BCI)を開発しました
バイアスを強調するためにチームが使用した最適戦略は、トップ2リストの最初と最後の選択肢を順番に配置することです。一方、バイアスを緩和するためにこれらの選択肢を周囲のオプションに散らばらせることが提案されています。仮説化された感度を検証するためにさまざまな研究が行われました。さらに、2つの異なるキャリブレーション技術を使用して、LLMの予測を改善しました。数多くのモデルとベンチマークで最大8パーセントポイントのパフォーマンス向上が見られ、顕著な改善がもたらされました。
この研究は、LLMのプロンプトの側面とその配置に対する感度に直面する必要性を強調しています。複数選択問題の並び替えられた選択肢への回答の微妙なニュアンスを調査することにより、LLMの意思決定手続きに光を当てることができました。これにより、LLMの実世界での利用可能性と信頼性が向上する可能性があります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- DeepMindの研究者が、成長するバッチ強化学習(RL)に触発されて、人間の好みに合わせたLLMを整列させるためのシンプルなアルゴリズムであるReinforced Self-Training(ReST)を提案しました
- 「研究によると、YouTube広告が子どもたちのオンライン追跡を引き起こした可能性がある」と言われています
- 「MITの研究者たちは、人工知能(AI)の技術を開発しましたこの技術により、ロボットは手全体を使ってオブジェクトを操作するための複雑な計画を立てることが可能になります」
- 「MITのこのAI研究は、光を基にした機械学習システムがより強力で効率的な大規模言語モデルを生み出す方法を示しています」
- テンセントAIラボの研究者たちは、テキスト対応の画像プロンプトアダプタ「IP-Adapter」を開発しました:テキストから画像への拡散モデルのためのアダプタです
- 「Appleの研究者が、ポーズされた画像から詳細な3D再構築を生成するエンドツーエンドネットワークを提案」
- マイクロソフトと香港浸会大学の研究者が、WizardCoder A Code Evol-Instruct Fine-Tuned Code LLMを紹介しました