「スタンフォード大学の研究者が言語モデルの事実性において革新を成し遂げました:自動的な優先順位付けとNLPの進歩によるエラー削減」

「スタンフォード大学の研究者が言語モデルの事実性を革新:自動的な優先順位付けとNLPの進歩によるエラー削減」

スタンフォード大学とUNCチャペルヒルの研究者は、LLMsが生成する事実に反する主張である幻覚として知られる問題に取り組んでいます。人間のラベリングなしで、研究者はLLMsを微調整してオープンエンドの生成環境で事実の正確性を向上させました。NLPの最近のイノベーションを活用して、外部知識ベースとの整合性を通じて事実性を評価し、直接の好み最適化アルゴリズムを用いて微調整を行っています。このアプローチにより、Llama-2で事実性が大幅に向上し、7Bの尺度での伝記や医学的質問応答の事実エラーレートが大幅に低下しました。

プロンプト、内部表現の摂動、および検索ベースの手法など、言語モデル内の事実エラーを緩和するためのさまざまな戦略が存在します。特にモデルのサイズが増大するにつれて、対立解決と事実性の維持に課題があります。FactScoreの変種は、推論時間の複雑さに対処するためにトレーニング中に検索を採用しています。好みに基づく学習を通じて微調整を行うことで、正しくない事実を効果的に減らすことができます。この研究では、言語モデルの不確実性を利用して真実性を推定するためのリファレンスフリーメソッドを導入しています。自動構築された好みペアからの事実性の学習は、人間の介入なしに潜在的な改善の可能性を示す、費用対効果の高いアプローチとして注目されています。

オープンエンドの生成環境に焦点を当て、人間のラベリングなしで言語モデルの事実性を向上させるための微調整を提案しています。外部知識ベースとの整合性を通じて事実性を判断し、直接の好み最適化アルゴリズムを利用するなど、NLPの最近のイノベーションを活用しています。このアプローチでは、自動生成された事実性の好み順位から学習を行い、ベンチマークデータセット上の他の戦略と比較して、伝記の生成や医学的質問への回答の事実エラーレートが大幅に低下します。

現在の研究では、外部知識ベースやモデルの信頼スコアとの整合性を通じて事実性を判断しています。直接の好み最適化アルゴリズムを用いて微調整を行い、教師付き模倣を超えた目標に焦点を当てています。既存の検索システムまたは新しい検索フリーのアプローチを通じて自動生成された事実性の好み順位から学習を行うことを提案しています。FactScoreなどの自動評価指標、人間の評価者、および推論時間の介入や層ごとのデコーディングとの比較を含めた評価が行われます。

このアプローチは、自動生成された事実性の好み順位からの学習が言語モデルの事実性の向上において効果的であることを示しています。微調整されたLlama-2モデルは、伝記の事実エラーレートを58%、医学的な質問に対する事実エラーレートを40%削減しました。人間の評価者は、FactTune-FSモデルをSFTモデルよりもかなり高く評価しています。GPT-4の評価とFactScoreの評価は高い相関関係を示し、FactTune-FSが事実エラーを減らすことに成功していることを示しています。

提案された研究では、長文生成を重視しながら言語モデルの事実性を向上させるための効果的な戦略が示されています。外部知識を使用したリファレンスベースの真実性の推定と、モデルの不確実性を利用したリファレンスフリーの推定の2つのアプローチが探究されています。いずれの方法でも、言語モデルの微調整により正しくない事実を一貫して減らすことができます。リファレンスコーパスのゴールドが必要ではない事実性の改善のためのスケーラブルな自己監督戦略を提供するリファレンスフリーのアプローチにより、実験結果は将来の研究の有望な方向を示しており、複数の事実性チューニング方法の組み合わせや大規模なモデルへのアプローチのスケーリングの探求が提案されています。

将来の研究では、事実性のチューニングと既存の手法の組み合わせ、例えば事実性チューニングDOLA実験の組み合わせを探求することを推奨しています。事実性の向上のために事実性をブーストするデコーディング技術と事実性チューニング手順を組み合わせることの効果を評価することが提案されています。事実性のチューニングと推論時間の介入などの異なるアプローチを組み合わせることの効果を評価することで、補完的なメカニズムについての示唆が得られるでしょう。原子的な事実を抽出するためのよりシンプルなアプローチや、GPT-4などの大規模なモデルへの事実性チューニングのアプローチを拡大することに向けた調査が提案され、さらなる探求が求められています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「オッペンハイマーからジェネラティブAIへ:今日の企業にとっての貴重な教訓」

先週末、最新の大ヒット作品「オッペンハイマー」を劇場で3時間観ましたストーリー全体と結末はすでに知っていたにも関わらず...

AI研究

私の博士号入学への道 - 人工知能

大学の出願書類を取り組んで、日々をカウントダウンして過ごした6ヶ月間の後、2023年秋に人工知能の博士号を取得することにな...

機械学習

テキスト生成の評価におけるベクトル化されたBERTScoreのビジュアルガイド

『AIベースのテキスト生成は明らかに主流に入ってきています自動化されたライティングアシスタントから法的文書の生成、マー...

AI研究

アップルとブリティッシュコロンビア大学のAI研究者が提案する「FaceLit:ニューラル3D再点灯可能な顔のための革新的なAIフレームワーク」

近年、2D画像から3D生成モデルを獲得するタスクに対する関心が高まっています。Neural Radiance Fields(NeRF)の登場により...

人工知能

AIが置き換えることができない仕事

はじめに サイバーノートであろうとそうでなかろうと、おそらく「AIが置き換えることのできない仕事」の議論を聞いたことがあ...

機械学習

CarperAIは、コードと自然言語の両方で進化的な検索を可能にするために設計されたオープンソースライブラリ、OpenELMを紹介します

自然言語処理は、人工知能の主要な分野の一つであり、非常に速いペースで進化しています。言語を話す方法や書く方法と同じよ...