「スタンフォード大学の新しいAI研究は、言語モデルにおける過信と不確実性の表現の役割を説明します」
Stanford University's new AI research explains the role of overconfidence and uncertainty representation in language models.
自然言語システムが日常のシナリオでますます普及するにつれて、これらのシステムは適切に不確実性を伝える必要があります。人間はしばしば不確実性の表現に頼って、傘を持ってくるか、化学療法を始めるかなどの意思決定プロセスに情報を提供します。しかし、言語の不確実性が自然言語生成システムとどのように相互作用するかについての研究の必要性があり、モデルが自然言語との相互作用のこの重要な要素を理解する必要があります。
最近の研究では、言語モデル(LM)が不確実性の表現を解釈する能力と、不確実性の表現を出力するように訓練された場合のその振る舞いの変化を探究しています。自然な不確実性の表現には、ためらいを示す、情報を帰属する、制限を認識するなどのディスコース行為が含まれます。従来の研究は、モデルの内部確率と言語的または数値的順序の出力とのマッピングの学習に重点を置いてきましたが、現在の研究では、ヘッジ、エピステミックマーカー、能動的な動詞、証拠マーカーなどの非一次元的な言語的特徴を自然言語生成モデルに組み込むことを目指しています。
この研究は、質問応答(QA)タスクの文脈でプロンプトの中の不確実性を解釈して生成する大規模言語モデル(LM)の振る舞いを調査しています。この研究では、不確実性の効果を分離するためにゼロショット設定で実験を行い、不確実性の表現を学習することで生成にどのような影響があるかを文脈学習シナリオで調査しました。
- アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです
- UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:カメラエンコーダとデプスエンコーダを通じて、ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ
- 「UCバークレーの研究者たちは、Chain of Hindsight(CoH)という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」
この研究では、高い確実性の表現を使用することが正確さとキャリブレーションの両方の欠点を引き起こす可能性があることがわかりました。具体的には、確実性の表現が前置詞を強めるため、正確さにシステマチックな損失が生じました。また、モデルに弱める表現を出力させることは、正確さを犠牲にすることなくキャリブレーションの改善につながりました。この研究では、言語的特徴がLMの生成にどのような影響を与えるかを評価するための不確実性の表現の分類法を紹介しました。
結果は、非常に確かな言語を出力するモデルの潜在的な欠点から、言語的にキャリブレーションされたモデルの設計が重要であることを示唆しています。この研究の貢献は以下の通りです:
- 不確実性の表現がLMとどのように相互作用するかについてのフレームワークと分析を提供する。
- 不確実性の表現の分類法の導入。
- モデルが確実性の表現や慣用句を使用することで生じる正確性の問題を示す。
最後に、この研究では不確実性の表現が確実性の表現よりもキャリブレーションが向上する可能性があることを示唆しています。
結論
この研究では、ゼロショットプロンプトと文脈学習における自然な不確実性の表現がモデルの振る舞いに与える影響を分析しました。研究者は、強化剤や能動的な動詞などの自然な確実性の表現や「100%の確信」といった数値的な不確実性の慣用句を使用することが、ゼロショットプロンプトにおいて正確さを低下させることを発見しました。しかし、モデルに強める表現を出力させるのではなく、弱める表現を出力させることでキャリブレーションの改善が見られました。
この研究では、モデルに確実性の表現を出力させるのではなく、不確実性の表現を出力させるように教えることが、人間とコンピュータの相互作用の安全な設計選択肢となる可能性があると示唆しています。これは、従来の研究がAI支援の意思決定が人間の意思決定単独よりも悪かったことを示しており、AIへの過度な依存を示唆しています。モデルに確実性の表現を出力させることで、モデルのキャリブレーションの悪さや脆弱性を考慮すると、この問題は悪化する可能性があります。
研究者は、人間が生成された自然な表現をどのように解釈するかを調査するためにさらなる研究が行われる一方で、モデルに不確実性の表現を出力させるためのトレーニングに焦点を当てることを推奨しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです
- スタンフォード大学の研究者が「局所的に条件付けられた拡散(Locally Conditioned Diffusion):拡散モデルを使用した構成的なテキストから画像への生成手法」を紹介しました
- ChatGPTの振る舞いは時間の経過と共に変化していますか?研究者がGPT-3.5とGPT-4の2023年3月版と2023年6月版を4つの異なるタスクについて評価します
- 研究チームがニューロモーフィックコンピューティングを一歩先に進める
- フランス国立科学研究センター(CNRS)におけるAI研究は、ノイズ適応型のインテリジェントプログラマブルメタイメージャーを提案しています:タスク固有のノイズ適応型センシングへの適切なアプローチです
- メリーランド大学の新しいAI研究は、1日で単一のGPU上で言語モデルのトレーニングをするためのクラミングの課題を調査しています
- マイクロソフトAI研究チームが提案する「AltFreezing:より一般的な顔の偽造検出のための新しいトレーニング戦略」