「DRESS」とは、自然言語フィードバックを通じて人々と調和し、対話する大規模なビジョン言語モデル(LVLM)です
『DRESS(ドレス)』:自然言語フィードバックで人々と対話し、調和する大規模なビジョン言語モデル(LVLM)
ビッグビジョン言語モデル、またはLVLMは、ビジュアルな手がかりを解釈し、ユーザーが簡単に対話するための簡単な返答を提供することができます。これは、大規模な言語モデル(LLM)を大規模なビジュアル指示の微調整と巧みに融合させることによって実現されています。しかし、LVLMは教師付き微調整(SFT)によって手作りまたはLLM生成のデータセットのみが必要です。これにより、キャプションジェネレータから指示に従うモデルに変更できるようになりますが、LVLMは依然として傷つける、悪意を持った、または役に立たない返答を生成することがあります。これは、LVLMが人間の好みとより一致する必要があることを示しています。さらに、以前の研究では、ビジュアル指示調整サンプルをマルチターン形式で組織することが推奨されていますが、異なるターン間の弱い関連性と相互依存性により、LVLMの相互作用能力が制限されています。ここで、相互作用能力は、LVLMがマルチターンインタラクションにおいて前の文脈を使用して返答を調整できるかどうかを評価します。これらの2つの欠点は、LVLMが視覚のヘルパーとしての実用性を制限します。
国際SRI研究所とイリノイ大学アーバナ・シャンペーン校の研究チームが、本研究でLLMによって生成される自然言語フィードバック(NLF)を使用してユニークに教授されるLVLM「DRESS」を提案しています(図1を参照)。研究チームは、LLMに対し、具体的なルールと詳細な写真注釈を提供することで、LVLMの返答について詳細なフィードバックを提供するよう指示します。人間と一致するLLMの作成プロセスに則って、このフィードバック注釈では3つのH基準(有用性、正直さ、無害性)を考慮しています。フィードバックは、3つのH基準に沿った返答の総合的な品質を評価し、数値スコアとNLFを提供します。研究チームの手法では、NLFを批評と改善に分けています。改善NLFは、返答がゴールド基準リファレンスに合うように改善するための正確な推奨事項をLVLMに提供しますが、批評NLFは、返答の強みと欠点を評価します。この分類は、LVLMをより人間に受け入れられるものにし、相互作用能力を高めるための2種類のNLFの自然な適用を提供します。
研究チームは、NLFの微分不可能な性質に合わせて条件付き強化学習技術を一般化し、そのようなフィードバックでLVLMをトレーニングします。具体的には、研究チームは返答に対する言語モデリング(LM)損失を使用して、DRESSをトレーニングし、2つのNLFに基づいて条件付けられた同等の返答を生成するようにします。研究チームは、数値結果の分析と解釈を通じてDRESSを改善し、ユーザーの好みとより一致するようにします。推論中のマルチターンインタラクションを通じて、研究チームは改善NLFを利用したオリジナルの返答の調整メタスキルを学習するようにDRESSをトレーニングします。
研究チームは、マルチターンインタラクションでのDRESSの評価、無害性評価のための敵対的なプロンプティング、正直性評価のための画像キャプショニング、助けになるかどうかの評価のためのオープンエンドの視覚的な質問への応答を行います。実験の結果、以前のLVLMと比較して、DRESSは人間の価値と一致する返答を提供でき、フィードバックから学習し、必要に応じて返答を修正するための優れた相互作用能力を持っています。研究チームの知る限り、この取り組みはLVLMの相互作用能力と3つの3H基準を取り扱う最初の試みです。
研究チームの貢献は以下の通りです:
• 研究チームは、自然言語フィードバック(NLF)を使用してLVLMの相互作用能力と人間の好みに一致する能力を高めるために、批評と改善NLFに分けることを提案します。
• モデルをトレーニングして、非微分性NLFに依存したマッチング応答を提供するようにすることによって、研究チームは条件付き強化学習手法を一般化し、成功裏に非微分性NLFに対応します。従来のSOTAに比べて、研究チームの提案モデルであるDRESSは、利用価値、誠実さ、無害性の一貫性を系統的に評価した結果、9.76%、11.52%、および21.03%の相対的な改善を示しています。
• 研究グループは、63Kの注釈付き言語NLFの例を公開し、3Hの特徴を含めて一般の利用に提供しています。さらに、研究チームは無害性の一貫性とLVLM評価のための4.7Kのサンプルを含む、公開可能なデータセットを作成しました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「イノベーションと持続可能性のバランス:病理学における環境責任に対する現実的なアプローチ」
- 「品質と責任について大規模な言語モデルを評価する」
- 「Amazon Titanを使用して簡単に意味論的画像検索を構築する」
- 「SageMakerキャンバスモデルリーダーボードを使用して、高度な設定を持つ機械学習モデルを構築し、評価します」
- 大規模に基礎モデルをトレーニングするためのAmazon SageMaker HyperPodの紹介
- 「Amazon SageMakerを使用して数百のモデルにスケールされたファウンデーションモデルの推論 – パート1」
- 「Amazon SageMakerの最新機能を使用することで、モデルのデプロイコストを平均で50%削減します」