「大規模な言語モデルは、多肢選択問題の選択の順序に敏感なのか」という新しいAI研究に答える

新しいAI研究の質問に答えるための大規模な言語モデルの選択順序の敏感さ

大規模言語モデル(LLM)は、様々なタスクで優れたパフォーマンスを発揮するため、非常に注目を集めています。これらのモデルは、監督モデルや一部の状況では人間さえも凌駕することが頻繁にあります。しかし、これらのモデルの機能的な制約は、実世界での有用性に影響を与える可能性があるという以前の研究結果が示しています。これらのモデルは、プロンプト言語の微妙なニュアンス、フューショットデモンストレーション、およびこれらのデモンストレーションの組織に対する感度が大きなパフォーマンスの問題となっています。この感度は、LLMの能力の客観的評価を妨げます。

Megagon Labsの最近の研究では、研究者グループが複数選択問題の取り扱いにおけるLLMの堅牢性を研究しました。複数選択問題は、推論能力や事実の取得能力をテストするための人気のある課題です。調査の主な焦点は、複数選択テストの選択肢の並び替えに対するLLMの反応です。回答選択肢が変更されると、詳細な研究の結果、複数のベンチマークで約13%から75%までのパフォーマンスの差が明らかになります。

徹底的な分析の結果、観察された感度は、LLMが予測のトップ2またはトップ3のオプション間で確信が持てない場合に発生するという仮説が提案されました。質問の文言によって引き起こされる位置バイアスにより、一部のオプションの順序はこれらのトップ選択肢の中でいくつかの予測を好む傾向があります。トップ2のオプションには、モデルの傾向を強調または軽減する興味深いパターンが見られることがあります。

バイアスを強調するためにチームが使用した最適戦略は、トップ2リストの最初と最後の選択肢を順番に配置することです。一方、バイアスを緩和するためにこれらの選択肢を周囲のオプションに散らばらせることが提案されています。仮説化された感度を検証するためにさまざまな研究が行われました。さらに、2つの異なるキャリブレーション技術を使用して、LLMの予測を改善しました。数多くのモデルとベンチマークで最大8パーセントポイントのパフォーマンス向上が見られ、顕著な改善がもたらされました。

この研究は、LLMのプロンプトの側面とその配置に対する感度に直面する必要性を強調しています。複数選択問題の並び替えられた選択肢への回答の微妙なニュアンスを調査することにより、LLMの意思決定手続きに光を当てることができました。これにより、LLMの実世界での利用可能性と信頼性が向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

2023 AIインデックスレポート:将来に期待できるAIトレンド

レポートからいくつかの要点があり、これらはAIの将来に備えるための準備をしてくれます

機械学習

「AIの革命:WatsonXの力を明らかにする」

「ワトソンX」という革命的なAI技術に出会ってくださいそれは、量子コンピューティング、高度な機械学習、自然言語処理が融合...

AIニュース

「マイクロソフト、Windows上でのCortanaの終了を発表」

マイクロソフトは重要な動きとして、WindowsでのCortanaのサポート終了を宣言しました。この発表は、Windows Centralによって...

データサイエンス

増強と生産性のための人工知能

「MITシュワルツマンコンピュータ科学大学院は、AIを活用したマネジメントを探求する7つの学際プロジェクトに対してシードグ...

データサイエンス

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。た...

AIテクノロジー

デイビッド・オーターさんがNOMIS 2023年度の著名科学者に選ばれました

NOMIS財団は、技術革新やグローバル化が労働者の仕事と収入の見通しに与える影響を理解するための貢献に対して、フォード経済...