「DRESS」とは、自然言語フィードバックを通じて人々と調和し、対話する大規模なビジョン言語モデル(LVLM)です

『DRESS(ドレス)』:自然言語フィードバックで人々と対話し、調和する大規模なビジョン言語モデル(LVLM)

ビッグビジョン言語モデル、またはLVLMは、ビジュアルな手がかりを解釈し、ユーザーが簡単に対話するための簡単な返答を提供することができます。これは、大規模な言語モデル(LLM)を大規模なビジュアル指示の微調整と巧みに融合させることによって実現されています。しかし、LVLMは教師付き微調整(SFT)によって手作りまたはLLM生成のデータセットのみが必要です。これにより、キャプションジェネレータから指示に従うモデルに変更できるようになりますが、LVLMは依然として傷つける、悪意を持った、または役に立たない返答を生成することがあります。これは、LVLMが人間の好みとより一致する必要があることを示しています。さらに、以前の研究では、ビジュアル指示調整サンプルをマルチターン形式で組織することが推奨されていますが、異なるターン間の弱い関連性と相互依存性により、LVLMの相互作用能力が制限されています。ここで、相互作用能力は、LVLMがマルチターンインタラクションにおいて前の文脈を使用して返答を調整できるかどうかを評価します。これらの2つの欠点は、LVLMが視覚のヘルパーとしての実用性を制限します。

国際SRI研究所とイリノイ大学アーバナ・シャンペーン校の研究チームが、本研究でLLMによって生成される自然言語フィードバック(NLF)を使用してユニークに教授されるLVLM「DRESS」を提案しています(図1を参照)。研究チームは、LLMに対し、具体的なルールと詳細な写真注釈を提供することで、LVLMの返答について詳細なフィードバックを提供するよう指示します。人間と一致するLLMの作成プロセスに則って、このフィードバック注釈では3つのH基準(有用性、正直さ、無害性)を考慮しています。フィードバックは、3つのH基準に沿った返答の総合的な品質を評価し、数値スコアとNLFを提供します。研究チームの手法では、NLFを批評と改善に分けています。改善NLFは、返答がゴールド基準リファレンスに合うように改善するための正確な推奨事項をLVLMに提供しますが、批評NLFは、返答の強みと欠点を評価します。この分類は、LVLMをより人間に受け入れられるものにし、相互作用能力を高めるための2種類のNLFの自然な適用を提供します。

図1: 研究者はDRESSに自然言語入力を使用するよう指示し、これを批評と改善の2つのカテゴリに分けて、人間の好みと相互作用能力の両方を高めます。

研究チームは、NLFの微分不可能な性質に合わせて条件付き強化学習技術を一般化し、そのようなフィードバックでLVLMをトレーニングします。具体的には、研究チームは返答に対する言語モデリング(LM)損失を使用して、DRESSをトレーニングし、2つのNLFに基づいて条件付けられた同等の返答を生成するようにします。研究チームは、数値結果の分析と解釈を通じてDRESSを改善し、ユーザーの好みとより一致するようにします。推論中のマルチターンインタラクションを通じて、研究チームは改善NLFを利用したオリジナルの返答の調整メタスキルを学習するようにDRESSをトレーニングします。

研究チームは、マルチターンインタラクションでのDRESSの評価、無害性評価のための敵対的なプロンプティング、正直性評価のための画像キャプショニング、助けになるかどうかの評価のためのオープンエンドの視覚的な質問への応答を行います。実験の結果、以前のLVLMと比較して、DRESSは人間の価値と一致する返答を提供でき、フィードバックから学習し、必要に応じて返答を修正するための優れた相互作用能力を持っています。研究チームの知る限り、この取り組みはLVLMの相互作用能力と3つの3H基準を取り扱う最初の試みです。

研究チームの貢献は以下の通りです:

• 研究チームは、自然言語フィードバック(NLF)を使用してLVLMの相互作用能力と人間の好みに一致する能力を高めるために、批評と改善NLFに分けることを提案します。

• モデルをトレーニングして、非微分性NLFに依存したマッチング応答を提供するようにすることによって、研究チームは条件付き強化学習手法を一般化し、成功裏に非微分性NLFに対応します。従来のSOTAに比べて、研究チームの提案モデルであるDRESSは、利用価値、誠実さ、無害性の一貫性を系統的に評価した結果、9.76%、11.52%、および21.03%の相対的な改善を示しています。

• 研究グループは、63Kの注釈付き言語NLFの例を公開し、3Hの特徴を含めて一般の利用に提供しています。さらに、研究チームは無害性の一貫性とLVLM評価のための4.7Kのサンプルを含む、公開可能なデータセットを作成しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

新しい方法で生成AIが休日の贈り物を見つけるのに役立つ方法

「ホリデーショッパーは、自分自身や他の人への贈り物を見つけるために生成AIを利用することができます」(Horidē shoppā wa, ...

機械学習

NODE:表形式に特化したニューラルツリー

近年、機械学習は人気が爆発し、ニューラルディープラーニングモデルは画像やテキストなどの複雑なタスクにおいて、XGBoost [...

AI研究

「UCSCとTU Munichの研究者が、余震を予測するための新しいディープラーニングベースのモデルであるRECASTを提案する」

人工知能はほぼすべての可能な分野に進出しています。この領域では広範な研究が行われています。私たちはまだまだ発見すべき...

AIテクノロジー

「生成AIに関する一般的な迷信を解明する 網羅的な探求」

イントロダクション テクノロジーは常に変化しており、生成的人工知能は近年の最も革命的な進展の一つです。この革新的な技術...

人工知能

「予算の制約を持つ学生や起業家のための7つの最高の無料AIツール」

「無料で利用できる最高の7つのAIツールを一つ一つ選びました何もありません何もない」

AI研究

UCバークレーの研究者たちは、「リングアテンション:トランスフォーマーのメモリ要件を削減するためのメモリ効率の良い人工知能アプローチ」という提案を行っています

ディープラーニングモデルアーキテクチャの一種であるTransformerは、多くの最先端のAIモデルの文脈で使われます。これらは人...