「大規模な言語モデルは、多肢選択問題の選択の順序に敏感なのか」という新しいAI研究に答える

新しいAI研究の質問に答えるための大規模な言語モデルの選択順序の敏感さ

大規模言語モデル(LLM)は、様々なタスクで優れたパフォーマンスを発揮するため、非常に注目を集めています。これらのモデルは、監督モデルや一部の状況では人間さえも凌駕することが頻繁にあります。しかし、これらのモデルの機能的な制約は、実世界での有用性に影響を与える可能性があるという以前の研究結果が示しています。これらのモデルは、プロンプト言語の微妙なニュアンス、フューショットデモンストレーション、およびこれらのデモンストレーションの組織に対する感度が大きなパフォーマンスの問題となっています。この感度は、LLMの能力の客観的評価を妨げます。

Megagon Labsの最近の研究では、研究者グループが複数選択問題の取り扱いにおけるLLMの堅牢性を研究しました。複数選択問題は、推論能力や事実の取得能力をテストするための人気のある課題です。調査の主な焦点は、複数選択テストの選択肢の並び替えに対するLLMの反応です。回答選択肢が変更されると、詳細な研究の結果、複数のベンチマークで約13%から75%までのパフォーマンスの差が明らかになります。

徹底的な分析の結果、観察された感度は、LLMが予測のトップ2またはトップ3のオプション間で確信が持てない場合に発生するという仮説が提案されました。質問の文言によって引き起こされる位置バイアスにより、一部のオプションの順序はこれらのトップ選択肢の中でいくつかの予測を好む傾向があります。トップ2のオプションには、モデルの傾向を強調または軽減する興味深いパターンが見られることがあります。

バイアスを強調するためにチームが使用した最適戦略は、トップ2リストの最初と最後の選択肢を順番に配置することです。一方、バイアスを緩和するためにこれらの選択肢を周囲のオプションに散らばらせることが提案されています。仮説化された感度を検証するためにさまざまな研究が行われました。さらに、2つの異なるキャリブレーション技術を使用して、LLMの予測を改善しました。数多くのモデルとベンチマークで最大8パーセントポイントのパフォーマンス向上が見られ、顕著な改善がもたらされました。

この研究は、LLMのプロンプトの側面とその配置に対する感度に直面する必要性を強調しています。複数選択問題の並び替えられた選択肢への回答の微妙なニュアンスを調査することにより、LLMの意思決定手続きに光を当てることができました。これにより、LLMの実世界での利用可能性と信頼性が向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

3つの難易度レベルでベクトルデータベースを説明する

この記事では、ベクトルデータベースについて、直感的な理解からいくつかの例を交えて、より技術的な詳細に説明しています

AIニュース

「Amazon LexをLLMsで強化し、URLの取り込みを使用してFAQの体験を向上させる」

「現代のデジタル世界では、ほとんどの消費者は、ビジネスやサービスプロバイダに問い合わせるために時間をかけるよりも、自...

データサイエンス

「信頼性と価値志向型AIへの道:正しい質問から始めよう」

最近の生成AIの進展は、ビジネスに関わらず、この技術を導入して具体的なビジネスの利益を得るために注目されていますしかし...

機械学習

「マルチモーダルAIの最新の進歩:(ChatGPT + DALLE 3)+(Google BARD + 拡張)など、さまざまなものがあります....」

マルチモーダルAIは、テキスト、画像、ビデオ、オーディオなどのさまざまなデータタイプ(モーダリティ)を組み合わせて、よ...

機械学習

AIによるテキストメッセージングの変革:自然言語処理技術の詳細な探求

「自然言語処理(NLP)の技術によるテキストメッセージングにおける人工知能(AI)の影響を深く探求し、洞察を得る」

人工知能

「AIを使ってGmailの受信トレイをクリアする方法」

あなたはGmailの受信トレイでメールの山を探検するのに疲れていますか?ニュースレターやプロモーション、スパムに溺れている...