「DRESS」とは、自然言語フィードバックを通じて人々と調和し、対話する大規模なビジョン言語モデル(LVLM)です

『DRESS(ドレス)』:自然言語フィードバックで人々と対話し、調和する大規模なビジョン言語モデル(LVLM)

ビッグビジョン言語モデル、またはLVLMは、ビジュアルな手がかりを解釈し、ユーザーが簡単に対話するための簡単な返答を提供することができます。これは、大規模な言語モデル(LLM)を大規模なビジュアル指示の微調整と巧みに融合させることによって実現されています。しかし、LVLMは教師付き微調整(SFT)によって手作りまたはLLM生成のデータセットのみが必要です。これにより、キャプションジェネレータから指示に従うモデルに変更できるようになりますが、LVLMは依然として傷つける、悪意を持った、または役に立たない返答を生成することがあります。これは、LVLMが人間の好みとより一致する必要があることを示しています。さらに、以前の研究では、ビジュアル指示調整サンプルをマルチターン形式で組織することが推奨されていますが、異なるターン間の弱い関連性と相互依存性により、LVLMの相互作用能力が制限されています。ここで、相互作用能力は、LVLMがマルチターンインタラクションにおいて前の文脈を使用して返答を調整できるかどうかを評価します。これらの2つの欠点は、LVLMが視覚のヘルパーとしての実用性を制限します。

国際SRI研究所とイリノイ大学アーバナ・シャンペーン校の研究チームが、本研究でLLMによって生成される自然言語フィードバック(NLF)を使用してユニークに教授されるLVLM「DRESS」を提案しています(図1を参照)。研究チームは、LLMに対し、具体的なルールと詳細な写真注釈を提供することで、LVLMの返答について詳細なフィードバックを提供するよう指示します。人間と一致するLLMの作成プロセスに則って、このフィードバック注釈では3つのH基準(有用性、正直さ、無害性)を考慮しています。フィードバックは、3つのH基準に沿った返答の総合的な品質を評価し、数値スコアとNLFを提供します。研究チームの手法では、NLFを批評と改善に分けています。改善NLFは、返答がゴールド基準リファレンスに合うように改善するための正確な推奨事項をLVLMに提供しますが、批評NLFは、返答の強みと欠点を評価します。この分類は、LVLMをより人間に受け入れられるものにし、相互作用能力を高めるための2種類のNLFの自然な適用を提供します。

図1: 研究者はDRESSに自然言語入力を使用するよう指示し、これを批評と改善の2つのカテゴリに分けて、人間の好みと相互作用能力の両方を高めます。

研究チームは、NLFの微分不可能な性質に合わせて条件付き強化学習技術を一般化し、そのようなフィードバックでLVLMをトレーニングします。具体的には、研究チームは返答に対する言語モデリング(LM)損失を使用して、DRESSをトレーニングし、2つのNLFに基づいて条件付けられた同等の返答を生成するようにします。研究チームは、数値結果の分析と解釈を通じてDRESSを改善し、ユーザーの好みとより一致するようにします。推論中のマルチターンインタラクションを通じて、研究チームは改善NLFを利用したオリジナルの返答の調整メタスキルを学習するようにDRESSをトレーニングします。

研究チームは、マルチターンインタラクションでのDRESSの評価、無害性評価のための敵対的なプロンプティング、正直性評価のための画像キャプショニング、助けになるかどうかの評価のためのオープンエンドの視覚的な質問への応答を行います。実験の結果、以前のLVLMと比較して、DRESSは人間の価値と一致する返答を提供でき、フィードバックから学習し、必要に応じて返答を修正するための優れた相互作用能力を持っています。研究チームの知る限り、この取り組みはLVLMの相互作用能力と3つの3H基準を取り扱う最初の試みです。

研究チームの貢献は以下の通りです:

• 研究チームは、自然言語フィードバック(NLF)を使用してLVLMの相互作用能力と人間の好みに一致する能力を高めるために、批評と改善NLFに分けることを提案します。

• モデルをトレーニングして、非微分性NLFに依存したマッチング応答を提供するようにすることによって、研究チームは条件付き強化学習手法を一般化し、成功裏に非微分性NLFに対応します。従来のSOTAに比べて、研究チームの提案モデルであるDRESSは、利用価値、誠実さ、無害性の一貫性を系統的に評価した結果、9.76%、11.52%、および21.03%の相対的な改善を示しています。

• 研究グループは、63Kの注釈付き言語NLFの例を公開し、3Hの特徴を含めて一般の利用に提供しています。さらに、研究チームは無害性の一貫性とLVLM評価のための4.7Kのサンプルを含む、公開可能なデータセットを作成しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

推論:可観測性のAI主導の未来?

この記事では、オペラビリティの後続としての推論、AIOpsからの教訓、その成功の不足、および推論ソリューションの新興原則に...

AI研究

メタAI研究者がGenBenchを導入:自然言語処理の汎化を進める革命的なフレームワーク

モデルの一般化能力は、自然言語処理(NLP)の持続的な成功にとって重要です。重要な要素として一般的に受け入れられているも...

人工知能

「ビジネスを拡大するための25のChatGPTプロンプト」

「25個のChatGPTテンプレートのプロンプトをコピーして貼り付けすることで、あなたのビジネス(および収入)を次のレベルに引...

機械学習

このスペースを見る:AIを使用してリスクを推定し、資産を監視し、クレームを分析する新しい空間金融の分野

金融の意思決定をする際には、ドローン、衛星、またはAIパワードセンサーから取得した大局的な情報を見ることが重要です。 空...

人工知能

生成型AIによる検索のスーパーチャージ

私たちは、ジェネレーティブAIを使用するSGE(Search Generative Experience)という名前の検索ラボの実験から始めます

機械学習

「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です...