安全な対話エージェントの構築
Building a Safe Conversational Agent.
より役立ち、正確で無害な方法でAIにコミュニケーションを学習させる
近年、大規模な言語モデル(LLM)は、質問応答、要約、対話など、さまざまなタスクで成功を収めています。対話は特に興味深いタスクであり、柔軟でインタラクティブなコミュニケーションが特徴です。ただし、LLMを活用した対話エージェントは、不正確な情報や創作された情報を表現したり、差別的な言語を使用したり、安全でない行動を促したりすることがあります。
より安全な対話エージェントを作成するためには、人間のフィードバックから学習できる能力が必要です。研究参加者のフィードバックに基づく強化学習を適用し、より安全なシステム向けの対話エージェントのトレーニングについての新しい手法を探求しています。
私たちの最新の論文では、Sparrowという対話エージェントを紹介しています。Sparrowは、有用であり、危険な回答や不適切な回答のリスクを低減するように設計されています。このエージェントは、ユーザーと会話し、質問に答え、Googleを使用してインターネットを検索し、回答を裏付けるためのエビデンスを提供する際に役立つ場合に使用します。
私たちの新しい会話型AIモデルは、最初の人間のプロンプトに自分で応答します。
Sparrowは研究モデルであり、対話エージェントをより役立ち、正確で無害にすることを目指して設計されています。Sparrowが一般的な対話設定でこれらの特性を学習することにより、Sparrowはより安全でより有用な人工汎用知能(AGI)の構築に役立つことが期待されます。
潜在的に有害な質問に回答しないSparrow。
Sparrowの動作原理
会話型AIのトレーニングは、特に難しい問題です。なぜなら、対話の成功要因を明確に定義することが困難だからです。この問題に対処するために、私たちは人々のフィードバックに基づいた強化学習(RL)の形式に頼り、研究参加者の好みに基づいて回答の有用性をモデル化するためのデータを収集します。
このデータを得るために、同じ質問に対する複数のモデル回答を参加者に表示し、最も好きな回答を選んでもらいます。インターネットから取得したエビデンスのある回答とエビデンスのない回答を示すことで、このモデルは回答にエビデンスを提供すべきかどうかも判断できます。
ただし、有用性の向上だけでは不十分です。モデルの振る舞いが安全であることを確認するためには、その振る舞いを制約する必要があります。したがって、モデルに対して最初の単純なルールセットを定めます。例えば、「脅迫的な発言をしない」や「憎悪的または侮辱的なコメントをしない」といったルールです。
また、潜在的に有害なアドバイスや人間であると主張しないことに関するルールも提供します。これらのルールは、既存の言語障害に関する研究や専門家の意見を参考にしています。その後、研究参加者にシステムと対話し、ルールを破るように仕向けます。これにより、Sparrowの振る舞いがルールに違反している場合を示す別個の「ルールモデル」を訓練することができます。
より良いAIとより良い判断へ
Sparrowの回答の正確性を専門家でさえも検証することは困難です。その代わり、私たちは参加者にSparrowの回答が妥当であるかどうか、Sparrowが提供するエビデンスが実際に回答を裏付けているかどうかを判断してもらいます。参加者によると、事実に関する質問に対してSparrowは78%の割合で妥当な回答を提供し、それをエビデンスで裏付けています。これは、私たちのベースラインモデルに比べて大幅な改善です。それでも、Sparrowは時々事実を幻覚し、話題から外れた回答をするなど、間違いを com します。
Sparrowはルールの従順性を改善する余地もあります。トレーニング後、参加者はまだSparrowをルールに違反させることがありますが、単純なアプローチと比較して、Sparrowは対抗的な探索の下でもルールに従う能力が向上しています。例えば、参加者がSparrowをルールに違反させようとした場合、元の対話モデルはSparrowよりも約3倍もの頻度でルールを破りました。
Sparrowは、質問とフォローアップの質問に対してエビデンスを使用し、個人的な質問をされた場合には「人間のアイデンティティを偽ることはしない」というルールに従います(2022年9月9日のサンプル)。
スパロウにおける私たちの目標は、対話エージェントにおけるルールと規範を柔軟に適用するための機械を構築することでしたが、私たちが使用している具体的なルールは仮のものです。より良くてより完全なルールセットの開発には、多くのトピック(政策立案者、社会科学者、倫理学者など)による専門家の入力と、多様なユーザーや関係者からの参加型の入力が必要です。私たちは、私たちの手法がより厳密なルールセットにも適用できると信じています。
スパロウは、対話エージェントをより有用で安全なものに訓練する方法を理解する上で、重要な進歩です。ただし、人々と対話エージェントの間の成功したコミュニケーションは、危害を避けるだけでなく、人間の価値との整合性を持つことが重要です。これについては、最近の研究で人間の価値との一致を図る言語モデルについて議論されています。
また、良いエージェントは、人間に譲るべき状況や潜在的に有害な行動を防ぐための文脈で質問に答えることを辞退することも重要です。最後に、私たちの初期の研究は英語を話すエージェントに焦点を当てていましたが、他の言語や文化的な文脈でも同様の結果が得られるようにするためにさらなる研究が必要です。
将来的には、人間と機械の対話がAIの行動の判断を改善することにつながり、機械の助けなしに理解することが難しいシステムを整合させて改善することができるようになることを望んでいます。
安全なAGIへの対話的な道筋を探索したいですか?現在、私たちは拡張可能な整合性チームの研究科学者を募集しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles