「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」

NYUとMeta AIの研究者は、自然な対話から学習し、注釈なしで対話エージェントの改善を研究しています

ヒューマンインプットは、社会的な対話モデルを改善するための重要な戦術です。ヒューマンフィードバックを用いた強化学習では、満足な報酬関数を保証するために多くのヒューマンアノテーションが必要とされており、フィードバックからの学習には非常な改善が見られています。フィードバックの源は、対話ターンや対話エピソードについてのユーザーからの数値スコア、ランキング、自然言語のコメント、およびボットターンのバイナリ評価などが含まれます。ほとんどの研究では、これらの信号をクラウドワーカーを利用して意図的に収集しています。なぜなら、一般のユーザーはそうすることを避けたいか、もしそうする場合には正確な情報を提供しないかもしれないからです。

この研究では、ニューヨーク大学とMeta AIの研究者が、モデルと有機的なユーザー間の実際の議論を特徴とする多くの展開時対話エピソードを持っている状況を考慮しています。彼らは、これらの自然なユーザーの議論から何らかの暗黙の指示を得ることができ、それらの信号を対話モデルの向上に利用することができるかどうかを調査しようとしています。これには2つの理由があります。まず第一に、彼らは明示的な注釈を提供しないかもしれませんが、有機的なユーザーは将来の展開のためのデータ分布に最も近いです。第二に、対話の以前のエピソードからの暗黙の信号を使用することで、クラウドソーシングに費やされるお金を節約することができます。

図1: アプローチの概要。人間とロボットの対話から、次のヒューマンターンが長くなるか短くなるか、または喜ばしいかどうかなどの暗黙の信号を得ます。

より具体的には、彼らはチャットボットを調整して、将来のヒューマンの回答の数量、長さ、感情、または反応性などの最適な暗黙のフィードバック信号を使用することができるかどうかを検討しています。彼らは、この問題を調査するためにBlenderBotのオンライン展開から公開された匿名化されたデータを使用しています。このデータを使用して、彼らはサンプルモデルと再ランクモデルをトレーニングし、さまざまな暗黙のフィードバック信号を比較します。彼らの新しいモデルは、自動化された評価と人間の判断の両方を通じて、ベースラインの返信よりも優れていると発見されました。さらに、彼らの暗黙のフィードバック信号が世代の品質の粗いプロキシ指標であるため、これらの指標をサポートすることが望ましくない行動を引き起こすかどうかを尋ねています。

はい、使用される信号によります。特に、議論の長さを最適化すると、モデルが論争的な意見を提供したり、敵意を持ったり攻撃的な態度で返答する可能性があります。一方、好意的な応答やムードを最適化すると、これらの行動がベースラインに比べて減少します。ヒューマンからの暗黙のフィードバックは、全体的なパフォーマンスを向上させることができる有益なトレーニング信号であると結論づけられますが、具体的な手法には重要な行動的な影響があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

MITの研究者たちは、SmartEMというAI技術を開発しましたこの技術は、リアルタイムの機械学習を画像処理にシームレスに統合することで、電子顕微鏡を次のレベルに進化させます

動物の脳の複雑なネットワークを理解することは、特にアルツハイマーのような疾患を研究する際に、科学者にとって大きな課題...

機械学習

「Javaアプリケーションのレイテンシー削減」

この記事では、大規模なプロダクションアプリケーションのメモリ解析に関連する課題と、それを乗り越える方法について取り上...

機械学習

「RoboPianistに会いましょう:シミュレートされたロボットハンドを使用したピアノマスタリーにおける高次元制御のための新しいベンチマークスイート」

制御および強化学習の領域における計測プロセスは非常に困難です。特に、高次元制御に焦点を当てた頑健なベンチマークが不足...

機械学習

MPT-7Bをご紹介します MosaicMLによってキュレーションされた1Tトークンのテキストとコードでトレーニングされた新しいオープンソースの大規模言語モデルです

MosaicMLは最近、予測分析と意思決定のアプローチを変革する画期的なツール、MPT-7Bを発表しました。この新しいツールは、最...

機械学習

「メタのCode Llamaコード生成モデルは、Amazon SageMaker JumpStartを介して利用可能になりました」

今日は、Metaが開発したCode Llama foundationモデルが、Amazon SageMaker JumpStartを通じて顧客に提供され、クリックひとつ...

データサイエンス

「対話型知能の創造 機械学習が個別化された自動テキスト送信に与える影響」

機械学習は、AIを使用して個別化された自動テキスト送信と会話型インテリジェンスを変革し、自然で効果的なテキストベースの...