「スタンフォード大学の研究者が言語モデルの事実性において革新を成し遂げました:自動的な優先順位付けとNLPの進歩によるエラー削減」

「スタンフォード大学の研究者が言語モデルの事実性を革新:自動的な優先順位付けとNLPの進歩によるエラー削減」

スタンフォード大学とUNCチャペルヒルの研究者は、LLMsが生成する事実に反する主張である幻覚として知られる問題に取り組んでいます。人間のラベリングなしで、研究者はLLMsを微調整してオープンエンドの生成環境で事実の正確性を向上させました。NLPの最近のイノベーションを活用して、外部知識ベースとの整合性を通じて事実性を評価し、直接の好み最適化アルゴリズムを用いて微調整を行っています。このアプローチにより、Llama-2で事実性が大幅に向上し、7Bの尺度での伝記や医学的質問応答の事実エラーレートが大幅に低下しました。

プロンプト、内部表現の摂動、および検索ベースの手法など、言語モデル内の事実エラーを緩和するためのさまざまな戦略が存在します。特にモデルのサイズが増大するにつれて、対立解決と事実性の維持に課題があります。FactScoreの変種は、推論時間の複雑さに対処するためにトレーニング中に検索を採用しています。好みに基づく学習を通じて微調整を行うことで、正しくない事実を効果的に減らすことができます。この研究では、言語モデルの不確実性を利用して真実性を推定するためのリファレンスフリーメソッドを導入しています。自動構築された好みペアからの事実性の学習は、人間の介入なしに潜在的な改善の可能性を示す、費用対効果の高いアプローチとして注目されています。

オープンエンドの生成環境に焦点を当て、人間のラベリングなしで言語モデルの事実性を向上させるための微調整を提案しています。外部知識ベースとの整合性を通じて事実性を判断し、直接の好み最適化アルゴリズムを利用するなど、NLPの最近のイノベーションを活用しています。このアプローチでは、自動生成された事実性の好み順位から学習を行い、ベンチマークデータセット上の他の戦略と比較して、伝記の生成や医学的質問への回答の事実エラーレートが大幅に低下します。

現在の研究では、外部知識ベースやモデルの信頼スコアとの整合性を通じて事実性を判断しています。直接の好み最適化アルゴリズムを用いて微調整を行い、教師付き模倣を超えた目標に焦点を当てています。既存の検索システムまたは新しい検索フリーのアプローチを通じて自動生成された事実性の好み順位から学習を行うことを提案しています。FactScoreなどの自動評価指標、人間の評価者、および推論時間の介入や層ごとのデコーディングとの比較を含めた評価が行われます。

このアプローチは、自動生成された事実性の好み順位からの学習が言語モデルの事実性の向上において効果的であることを示しています。微調整されたLlama-2モデルは、伝記の事実エラーレートを58%、医学的な質問に対する事実エラーレートを40%削減しました。人間の評価者は、FactTune-FSモデルをSFTモデルよりもかなり高く評価しています。GPT-4の評価とFactScoreの評価は高い相関関係を示し、FactTune-FSが事実エラーを減らすことに成功していることを示しています。

提案された研究では、長文生成を重視しながら言語モデルの事実性を向上させるための効果的な戦略が示されています。外部知識を使用したリファレンスベースの真実性の推定と、モデルの不確実性を利用したリファレンスフリーの推定の2つのアプローチが探究されています。いずれの方法でも、言語モデルの微調整により正しくない事実を一貫して減らすことができます。リファレンスコーパスのゴールドが必要ではない事実性の改善のためのスケーラブルな自己監督戦略を提供するリファレンスフリーのアプローチにより、実験結果は将来の研究の有望な方向を示しており、複数の事実性チューニング方法の組み合わせや大規模なモデルへのアプローチのスケーリングの探求が提案されています。

将来の研究では、事実性のチューニングと既存の手法の組み合わせ、例えば事実性チューニングDOLA実験の組み合わせを探求することを推奨しています。事実性の向上のために事実性をブーストするデコーディング技術と事実性チューニング手順を組み合わせることの効果を評価することが提案されています。事実性のチューニングと推論時間の介入などの異なるアプローチを組み合わせることの効果を評価することで、補完的なメカニズムについての示唆が得られるでしょう。原子的な事実を抽出するためのよりシンプルなアプローチや、GPT-4などの大規模なモデルへの事実性チューニングのアプローチを拡大することに向けた調査が提案され、さらなる探求が求められています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました

人間の行動認識の最近の進展は、人間とロボットの相互作用(HRI)において驚くべきブレークスルーを実現しました。この技術によ...

AIニュース

「ジェネレーティブAIがビジネス、健康医療、芸術を再構築する方法」

紹介 生成的な人工知能、一般にはGenAIと呼ばれるものは、AI革命の最前線に位置し、ロボットの無限の創造力と問題解決能力を...

機械学習

『ランチェーンでチェーンを使用するための包括的ガイド』

イントロダクション 言語処理の最前線に足を踏み入れてください!言語が人間とテクノロジーの間の重要なつながりである領域で...

機械学習

あらゆる種類の分子との相互作用を理解する新しいAIモデルによって、タンパク質デザインの領域での境界を打破する

DeepmindのAlphaFoldによって始まった構造生物学の革命の後、関連するタンパク質設計の分野は、深層学習の力によって最近新し...

AI研究

新しいCMUとMetaによるAI研究、PyNeRFの導入:スケールに意識したグリッドベースのレンダリングにおけるニューラル輝度場の進化

ニューラル・ラディアンス・フィールド(NeRF)は、シーン再構成時のスケールの変動とエイリアシングのアーティファクトを減...

機械学習

「脳のように機能するコンピュータビジョンは、人々が見るように見ることができます」

マサチューセッツ工科大学の研究者は、コンピュータビジョンを向上させるために、人工ニューラルネットワークを脳の下位側頭...