「LLMは誰の意見を反映しているのか? スタンフォード大学のこのAI論文では、言語モデルLMが一般世論調査の観点から反映している意見について検証しています」
このAI論文では、LLMが一般世論調査の意見を反映しているかを検証しています
過去数年間、言語モデル(LM)は、医療、ソフトウェア開発、金融など、さまざまな産業において、自然言語処理アプリケーションのペースを加速する上で非常に重要な役割を果たしてきました。LMを使用してソフトウェアコードを書く、著者が執筆スタイルやストーリーラインを改善するのを支援するなど、トランスフォーマーベースのモデルの最も成功した人気のあるアプリケーションの1つです。しかし、これだけではありません!研究によると、LMは、主観的な質問をすることで、チャットボットや対話アシスタントのアプリケーションにおいて、オープンエンドの文脈で使用されることがますます増えています。たとえば、AIが将来世界を支配するか、安楽死合法化が良い考えかどうかといった主観的な質問を対話エージェントに尋ねる例があります。このような状況では、主観的な質問に対するLMの意見は、特定の偏見やバイアスに陥るかどうかだけでなく、社会全体の見解を形成する上でも重要な影響を与えることが示されています。
現在、オープンエンドのタスクにおけるLMのパフォーマンスを評価するために、LMがどのように主観的な質問に反応するかを正確に予測することは非常に困難です。その主な理由は、これらのモデルの設計と微調整を担当する人々が異なるバックグラウンドを持ち、異なる視点を持っているからです。また、主観的な質問に関しては、モデルを判断するために使用できる「正しい」回答はありません。その結果、モデルが示すどのような視点も、ユーザーの満足度や彼らが意見を形成する方法に大きな影響を与えることができます。したがって、オープンエンドのタスクにおいてLMを正しく評価するためには、まずLMによって反映されている意見が正確に誰のものであり、それが一般人口の大多数とどのように合致しているかを明確にすることが重要です。この目的のために、スタンフォード大学とコロンビア大学のポストドクター研究者チームは、LMによって生成される意見のスペクトルと、さまざまな人口グループとの一致を研究するための包括的な定量的フレームワークを開発しました。人間の意見を分析するために、チームは専門家によって選ばれた世論調査と、異なる人口グループに属する個人から収集された回答を利用しました。さらに、チームはOpinionQAという新しいデータセットを開発し、中絶や銃暴力などのさまざまな問題において、LMのアイデアが他の人口グループとどれだけ一致しているかを評価しました。
研究者たちは、専門家によって選ばれた公衆意見調査を使用し、オープンエンドの回答に関連する課題とLMのプロンプトへの容易な適応性のために、多肢選択形式の質問形式で設計された質問に頼りました。これらの調査では、アメリカの異なる民主的グループに属する個人の意見を収集し、スタンフォード大学とコロンビア大学の研究者たちがLMの意見に関する評価指標を作成するのに役立ちました。研究者たちの提案したフレームワークの基本的な基盤は、多肢選択の公衆意見調査をデータセットに変換し、LMの意見を評価するためのものです。各調査には、さまざまなトピックに属するいくつかの質問が含まれており、各質問にはさまざまな可能な回答があります。研究の一環として、研究者たちはまず、LMの回答を比較するために、人間の意見の分布を作成する必要がありました。その後、チームはこの手法を用いてPew Researchのアメリカのトレンドパネル調査をOpinionQAデータセットを構築するために活用しました。この調査は、科学、政治、個人関係、医療などのさまざまなトピックをカバーし、アメリカ全土のさまざまな人口グループから収集された1498件の多肢選択質問とその回答で構成されています。
研究者たちは、AI21 LabsとOpenAIの9つのLM(パラメータ範囲:350M〜178B)をOpinionQAデータセットを使用して評価しました。評価では、モデルの意見を米国全体の人口と60の異なる人口グループ(民主党、65歳以上の個人、未亡人などを含む)と比較しました。研究者たちは、調査結果の3つの側面に主に注目しました:代表性、操作性、一貫性。「代表性」とは、デフォルトのLMの信念がアメリカの全人口または特定のセグメントとどれだけ近いかを指します。気候変動などのさまざまなトピックに関して、現代のLMの意見とアメリカの人口グループの意見との間には、大きな乖離があることがわかりました。また、これらのモデルをより人間に合わせるため、人間のフィードバックに基づいて微調整することで、この不一致はさらに増幅されることがわかりました。また、現在のLMは、65歳以上の人や未亡人などの一部のグループの視点を適切に表現していないことがわかりました。操作性(LMが適切にプロンプトされた場合、グループの意見分布に従うかどうか)に関しては、ほとんどのLMが特定の方法で行動するよう促されると、グループとの一致度が高まる傾向があることがわかりました。研究者たちは、さまざまな民主的グループの意見が、さまざまな問題にわたってLMと一貫しているかどうかを判断することに重点を置きました。この点では、一部のLMが特定のグループとよく一致している一方で、分布はすべてのトピックにわたって一致していないことがわかりました。
要するに、スタンフォード大学とコロンビア大学の研究者グループが、公衆意見調査の支援を受けて、LM(言語モデル)に反映される意見を分析するための素晴らしいフレームワークを提案しました。彼らのフレームワークにより、OpinionQAという新しいデータセットが作成されました。このデータセットによって、LMがアメリカの大部分の意見、異なるグループ(65歳以上と未亡人を含む)の意見、および操作性といった複数の面で人間の意見と乖離していることが明らかになりました。研究者たちはまた、OpinionQAデータセットがアメリカに特化しているものの、彼らのフレームワークは一般的な手法を使用しており、他の地域のデータセットにも拡張できると指摘しています。チームは、彼らの研究がLMをオープンエンドのタスクで評価し、バイアスやステレオタイプから自由なLMを作成するためのさらなる研究を推進することを強く望んでいます。OpinionQAデータセットの詳細については、こちらからアクセスできます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 鑑識分類器をだます:敵対的な顔生成における生成モデルの力
- ハイパーパラメータ最適化のためのトップツール/プラットフォーム2023年
- 「xTuringに会ってください:たった3行のコードで自分自身の大規模言語モデル(LLM)を作成できるオープンソースツール」
- NotebookLM グーグルの実験的なAIノートブック、学習と洞察のための向上したもの
- 「PolyLM(Polyglot Large Language Model)に会ってください:640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です」
- 「2023年のトップコンピュータビジョンツール/プラットフォーム」
- 非ユークリッド空間における機械学習