「大規模な言語モデルは、多肢選択問題の選択の順序に敏感なのか」という新しいAI研究に答える

新しいAI研究の質問に答えるための大規模な言語モデルの選択順序の敏感さ

大規模言語モデル(LLM)は、様々なタスクで優れたパフォーマンスを発揮するため、非常に注目を集めています。これらのモデルは、監督モデルや一部の状況では人間さえも凌駕することが頻繁にあります。しかし、これらのモデルの機能的な制約は、実世界での有用性に影響を与える可能性があるという以前の研究結果が示しています。これらのモデルは、プロンプト言語の微妙なニュアンス、フューショットデモンストレーション、およびこれらのデモンストレーションの組織に対する感度が大きなパフォーマンスの問題となっています。この感度は、LLMの能力の客観的評価を妨げます。

Megagon Labsの最近の研究では、研究者グループが複数選択問題の取り扱いにおけるLLMの堅牢性を研究しました。複数選択問題は、推論能力や事実の取得能力をテストするための人気のある課題です。調査の主な焦点は、複数選択テストの選択肢の並び替えに対するLLMの反応です。回答選択肢が変更されると、詳細な研究の結果、複数のベンチマークで約13%から75%までのパフォーマンスの差が明らかになります。

徹底的な分析の結果、観察された感度は、LLMが予測のトップ2またはトップ3のオプション間で確信が持てない場合に発生するという仮説が提案されました。質問の文言によって引き起こされる位置バイアスにより、一部のオプションの順序はこれらのトップ選択肢の中でいくつかの予測を好む傾向があります。トップ2のオプションには、モデルの傾向を強調または軽減する興味深いパターンが見られることがあります。

バイアスを強調するためにチームが使用した最適戦略は、トップ2リストの最初と最後の選択肢を順番に配置することです。一方、バイアスを緩和するためにこれらの選択肢を周囲のオプションに散らばらせることが提案されています。仮説化された感度を検証するためにさまざまな研究が行われました。さらに、2つの異なるキャリブレーション技術を使用して、LLMの予測を改善しました。数多くのモデルとベンチマークで最大8パーセントポイントのパフォーマンス向上が見られ、顕著な改善がもたらされました。

この研究は、LLMのプロンプトの側面とその配置に対する感度に直面する必要性を強調しています。複数選択問題の並び替えられた選択肢への回答の微妙なニュアンスを調査することにより、LLMの意思決定手続きに光を当てることができました。これにより、LLMの実世界での利用可能性と信頼性が向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIとML開発言語としてのPythonの利点」

「AIやMLなどのツールを使用して、ウェブ開発会社が業界を征服するためにPythonがますます使用されている理由を発見してくだ...

機械学習

LangChain 101 パート1. シンプルなQ&Aアプリの構築

LangChainは、テキストを生成し、質問に答え、言語を翻訳し、その他多くのテキスト関連の作業を行うアプリケーションを作成す...

データサイエンス

「PUGに会ってください:メタAIによるアンリアルエンジンを使用したフォトリアルで意味的に制御可能なデータセットを用いた堅牢なモデル評価に関する新しいAI研究」

データの表現を学び、タスク間で応用できるようにすることは、機械学習における高い目標です。評価とトレーニングのための大...

データサイエンス

ベクトルデータベースについてのすべて - その重要性、ベクトル埋め込み、および大規模言語モデル(LLM)向けのトップベクトルデータベース

大型言語モデルは近年、著しい成長と進化を遂げています。人工知能の分野は、これらのモデルの新たなリリースごとにブームを...

機械学習

韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています

最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィ...

機械学習

「カスタムファインチューニングされた大規模言語モデルの安全性への深い潜入」

画期的な共同研究により、IBM Research、プリンストン大学、バージニア工科大学は大規模言語モデル(LLM)に関する重要な懸念...