『NYU研究者が提案するGPQA 生物学、物理学、化学の3つの領域の専門家が作成した448の多肢選択問題からなる難解なデータセット』

「NYU研究者提案GPQA 生物学、物理学、化学の3分野専門家が作成した448問の難解なデータセット」

大型言語モデル(LLM)は人工知能(AI)の最前線にあり、この急速に変化する分野で人間のスキルを凌駕する可能性を示しています。ただし、これらのモデルが超人的な能力に近づくにつれて、公正な評価や人間の理解に合わせることがより困難になります。この問題を解決することは、新しいAIシステムが正確な情報を提供することを保証するために不可欠であり、特に人間が検証できる真実が曖昧な問題において重要です。これはスケーラブルな監視として知られる問題です。

ロバストな評価のテストベッドは、これらのジョブのためのLLMの適合度を評価するために必要です。テストベッドは、特に人間が生成したデータや独立に検証された真実へのアクセスが制限されている場合に、これらのモデルから一貫して正確なデータを得る必要があります。そのようなテストベッドは、人間の知識の外の問題に対して一般化を可能にするために十分に困難でなければならず、高度に訓練された非専門家によるテストも可能にする必要があります。特に専門知識が必要な分野では、LLMの回答の正確さを評価することはより困難です。人間のフィードバックからの強化学習などの監視技術の主要なコンポーネントは、人間の注釈者がLLMの出力の正確さを評価する際の正確さです。ただし、注釈者が経験不足により正確さを区別しにくい場所では、モデルの回答における妄想や相場の悪化といった問題が悪化します。

これらの問題に対応するために、NYU、Cohere、Anthropicの研究者は、GPQA:卒業レベルのGoogle-Proof Q&Aベンチマークを提案します。GPQAは、生物学、化学、物理学の卒業レベルの多肢選択問題をカバーする評価データセットです。興味深いことに、GPQAは各質問に対して多くの時間を費やし、その質問をドメインの専門家や高度に訓練された非専門家と検証しています。これにより、問題がチャレンジングであることが保証されます。GPQAは、詳細な4つのステップの手順の結果です。質問はまず専門家によって開発され、その後他の人によって検証および修正されます。その後、2つの追加の専門家評価者が修正された質問を客観的に評価します。最終的に、各質問に時間をかけて回答する高資格の非専門家評価者がデータセットの複雑さを確認します。従業員のインセンティブは、すべてのレベルで優れた業績を認識し報酬を与えることを考慮して綿密に作成されています。

448の厳しいインスタンスを持つGPQAは、さえない最も先進的なAIシステムでも直面する課題を証明しています。最高のGPT-4ベースのモデルでも39%の正確性しか持ちませんが、専門家は65%、非専門家は34%に達します。これは、既存のモデルを凌駕する次世代モデルに対するスケーラブルな監視技術の研究にとって、このデータセットの価値を強調しています。重要性にもかかわらず、GPQAには非常に限られたモデルの訓練サイズと専門家選択におけるバイアスの可能性などの欠点があります。将来的には、監視データセットは超人的AI監視の標準として未解決の問題を見つけることを目指すかもしれません。これにより、モデルと人間の専門知識の知識ギャップが縮まります。

GPQAは、要求の高い分野で人工知能評価の最前線を拡大する先駆的な評価データセットとして機能します。その開発アプローチと検証技術は、スケーラブルな監視トライアルの洞察を提供することで、超人的なAIシステムの効率的な監視プロトコルの開発を容易にします。GPQAの開発は、AIシステムの評価を評価し、超人的モデルを人間の知識とより一致させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more