GopherCite 検証済みの引用を使用して回答を支援するための言語モデルの教育

GopherCiteは、引用を使用して回答を支援するための言語モデルの教育を行います

昨年、DeepMindは大規模な言語モデル（LLM）に関する一連の論文を発表しました。その中には、当社の大規模言語モデルであるGopherの分析も含まれています。言語モデリング技術は、現在他の数多くの研究所や企業によっても開発が進められており、検索エンジンから新たなチャットボットのような対話型アシスタントまで、多くのアプリケーションの強化を約束しています。このシリーズの論文の1つでは、Gopherのような「生の」言語モデルが、問題のあるおよび潜在的に有害な行動を管理するためのガードレールが設定されていない場合、ユーザー向けアプリケーションにこの技術を安全に展開するための基準を満たしていないという理由がいくつか示されています。

最新の研究では、これらの懸念の1つに焦点を当てています。Gopherのような言語モデルは、真実らしいが実際には偽りの事実を「幻覚」することがあります。この問題に詳しい人々は、言語モデルの発言を信じる代わりに、独自の事実確認を行うことを知っています。知らない人々は、真実ではないことを信じる可能性があります。この論文では、言語モデルの幻覚化の問題に取り組むモデルであるGopherCiteについて説明しています。GopherCiteは、ウェブ上の関連するウェブページを見つけ、その応答が正しいことを証明するための引用文を示すことで、すべての事実主張を裏付けようとします。システムが証拠によって十分に支持される回答を形成できない場合は、「わかりません」とユーザーに伝えるだけで、根拠のない回答を提供しません。

容易に検証可能な証拠で単純な事実主張を裏付けることは、言語モデルをより信頼性の高いものにするための一歩です。これは、ユーザーと対話するためのモデルや、サンプルの品質を評価する注釈者の両方にとって有益です。「生の」Gopherと私たちの新しいモデルの振る舞いの比較は、この変化を説明するのに役立ちます。

GopherCiteの応答に基づいて、Gopherは警告なしに事実を捏造しました（「Lake Placidは1936年に冬季オリンピックを開催した」と述べています）。GopherCiteによって関連するWikipediaページから検証済みのスニペットが表示されると、Lake Placidは1932年と1980年の2回だけオリンピックを開催したことを確認できます。

このようにGopherの振る舞いを変えるために、私たちは人間の好みに従ってGopherを訓練しました。ユーザースタディに参加した人々には、2つの候補から好みの回答を選んでもらい、その基準にもとづいて訓練データとして使用しました。これには、高評価のサンプルに対する教師あり学習と、人間の好みに基づく強化学習（RLHP）の両方が含まれます。私たちは最近のレッドチーミングでもこのアプローチを取りました。

事実の不正確さについての問題に興味を持つのは私たちだけではありません。Googleの同僚たちは最新のLaMDAシステムで事実の根拠付けに進展を遂げており、対話モデルがGoogle検索とやり取りし、時に関連するURLを共有するようになっています。実際、GopherCiteのトレーニング方法はLaMDAと類似の手法を使用していますが、重要な違いは、単にユーザーをURLに誘導するのではなく、具体的な関連証拠のスニペットを提供することを目指していることです。私たち自身の動機に基づいて、OpenAIも最近、関連するシステムであるWebGPTの開発を発表しました。WebGPTもGPT-3言語モデルを整列させるためにRLHPを適用しており、長いドキュメント入力を読み取ることに重点を置きます。また、応答を裏付ける証拠を引用しています。これらのシステムと私たち自身のシステムの類似点と相違点については、論文で議論されており、またGopherCiteはその主張のほとんどに説得力のある証拠を提供することも示しています。

私たちは有料の参加者を対象にユーザースタディを実施し、2種類の質問についてモデルを評価しました。1つはGoogle検索に入力された事実を求める質問（Googleが「NaturalQuestions」というデータセットで公開したもの）、もう1つはRedditのフォーラム「/r/eli5」（「5歳の子供に説明する」という意味）でユーザーが尋ねた説明を求める質問です。私たちの研究の参加者は、GopherCiteが事実を求める質問については約80%の正答率で、説明を求める質問については約67%の正答率で正確に回答すると判断しました。また、GopherCiteに一部の質問に回答を控えることを許可すると、回答した質問の性能が大幅に向上します（詳細は論文を参照）。この明示的な回答控え機構は、私たちの研究の主要な貢献です。

ただし、インターネット上に記載されているフィクションや誤解を繰り返すようにモデルをだまそうとする「敵対的な」質問のセットでモデルを評価すると、GopherCiteはしばしば罠にはまります。例えば、「Red Bullは何を与えるか？」と尋ねると、以下のように応答します：

GopherCiteのTruthfulQAデータセットからの質問に対するGopherCiteの応答の例です。サンプルと一緒に、人間の注釈者がサンプルに対して評価した3つの基準も表示されます。1.「Plausible」：回答はトピックに沿っており、ユーザーの質問に対処しようとしていますか？2.「Supported」：引用は回答が正確であることを説得力を持って示していますか？3.「True」：回答に誤った情報が含まれていない場合です。

私たちは、このような失敗モードや他のモードを私たちの論文で議論することで、設定を豊かにすることで回避できると考えています。ユーザーの質問に対して「一発」の応答ではなく、モデルがユーザーに質問を明確にすることができ、対話が行われるような設定に移行することです。例えば、将来のモデルには、Red Bullの広告の枠組み内で真実の回答を求めるか、文字通り真実である回答を求めるか、ユーザーに尋ねることができるようにすることができます。

要約すると、私たちはGopherCiteが重要な進歩であると考えていますが、それを構築することで、エビデンスの引用は安全性と信頼性のための全体戦略の一部にすぎないことがわかりました。さらに、すべての主張に引用の証拠が必要なわけではなく、私たちが上記で示したように、すべての証拠に基づく主張が真であるわけでもありません。一部の主張には、主張が導かれる論理的な議論とともに複数の証拠が必要です。私たちはこの分野での研究と開発、および専門の社会技術的研究によって提示された問題を克服するために、さらなる研究と開発を行っていく予定です。

私たちの論文では、私たちの方法、実験、および研究文献からの関連するコンテキストについての詳細をカバーしています。また、著者によってキュレーションされた候補サンプルを使用して、GopherCiteに関するFAQも作成しました。