マイクロソフトの研究者は、2段階の介入フレームワークを使用したオープンボキャブラリー責任ある視覚合成(ORES)を提案しています

マイクロソフトの研究者は、ORES(オープンボキャブラリー責任ある視覚合成)を提案しています

ビジュアル合成モデルは、大規模なモデルトレーニングの進歩により、ますます現実的なビジュアルを生成することができるようになりました。合成された画像を使用する可能性が高まるにつれて、特定のビジュアル要素を除外するために合成中に人種差別、性差別、ヌードなどの要素を排除するために、責任あるAIがますます重要になっています。しかし、責任あるビジュアル合成は2つの基本的な理由から非常に困難な課題です。まず、合成された画像が管理者の基準に準拠するためには、「ビル・ゲイツ」と「マイクロソフトの創業者」といった言葉は現れていない必要があります。第二に、ユーザーの問い合わせの非禁止部分は、ユーザーの基準を満たすように正確に合成される必要があります。

既存の責任あるビジュアル合成技術は、上記で述べた問題を解決するために、次の3つの主要なカテゴリに分けることができます: 入力の改善、出力の改善、モデルの改善。最初の戦略である入力の改善は、ユーザーのクエリを事前処理して管理者の要求に従うことに集中します。例えば、不適切なアイテムをフィルタリングするためのブラックリストの構築などです。オープンボキャブラリの環境では、ブラックリストがすべての望ましくないアイテムを完全に排除することは困難です。2番目の方法である出力の改善は、作成された映画を事後処理して管理者のルールに従うことを意味します。たとえば、Not-Safe-For-Work(NSFW)コンテンツを特定して削除することで、出力の適合性を保証します。

この技術では、事前トレーニングされた特定の概念に基づくフィルタリングモデルに依存しているため、オープンボキャブラリのビジュアルアイデアを特定することは困難です。3番目の戦略であるモデルの改善は、モデル全体または特定のコンポーネントを微調整して、管理者の基準を理解し満たすようにし、指定されたルールと規制に一致する素材を提供する能力を向上させます。ただし、チューニングデータのバイアスがしばしばこれらの技術に制限を加えるため、オープンボキャブラリの機能に到達することは困難です。これにより、次の問題が生じます: オープンボキャブラリによる責任あるビジュアル合成の実現によって、管理者は任意のビジュアルアイデアの作成を効果的に禁止することができるのでしょうか? たとえば、ユーザーは図1で「マイクロソフトの創業者がパブでワインを飲んでいる」という要求を出すかもしれません。

 図1. オープンボキャブラリによる責任あるビジュアル合成

地理、文脈、使用状況によっては、適切なビジュアル合成のためにさまざまなビジュアルコンセプトを避ける必要があります。

管理者が「ビル・ゲイツ」や「アルコール」といったアイデアを禁止として入力する場合、責任ある出力は、日常的な表現と同様に概念を明確にする必要があります。マイクロソフトの研究者は、これらの観察に基づいて、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しています。このジョブでは、ビジュアル合成モデルは明示的に指定されていない任意のビジュアル要素を回避しながら、ユーザーが望む情報を入力できるようにすることができます。そして、Two-stage Intervention (TIN)構造が導入されます。これにより、特定の概念を避けながら、ユーザーの問い合わせにできるだけ忠実に合成することができる1) 大規模言語モデル(LLM)を使用した学習可能な命令による書き換えと、2) 拡散合成モデルによる迅速な介入による合成が行われます。

TINは学習可能なクエリの指示の下で、CHATGPTを特定の質問をリスク低減されたクエリに書き換えるために適用します。中間合成段階では、TINはユーザーのクエリをリスク低減されたクエリで置き換えることによって合成に介入します。彼らはベンチマーク、関連するベースラインモデル、ブラックリスト、ネガティブプロンプト、および一般に公開可能なデータセットを開発しました。彼らは大規模な言語モデルとビジュアル合成モデルを組み合わせています。彼らの知る限りでは、彼らはオープンボキャブラリのシナリオで責任あるビジュアル合成を研究する最初の人々です。

付録では、彼らのコードとデータセットが誰にでもアクセス可能です。彼らは次の貢献をしました:

• 実行可能性の証拠として、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しました。適切なベースラインモデルとベンチマークを開発し、一般にアクセス可能なデータセットを確立しました。

• ORESの成功した対策として、彼らはTwo-stage Intervention (TIN) フレームワークを提供しています。これは以下の手順からなります:

1) 大規模言語モデル(LLM)を用いた学習可能な教育による書き換え

2) 拡散合成モデルによる迅速な介入による合成

• 研究により、彼らのアプローチは適切でないモデルの開発の可能性を大幅に低減することが示されています。彼らはLLMの責任あるビジュアル合成の能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AWS Inferentiaでのディープラーニングトレーニング

この投稿のトピックは、AWSの自社開発AIチップ、AWS Inferentia、より具体的には第2世代のAWS Inferentia2ですこれは、昨年の...

AI研究

スタンフォード大学研究者が提案するMAPTree:強化された堅牢性とパフォーマンスを備えたベイジアンアプローチに基づく決定木生成

決定木は、分類と回帰の両方のタスクに使用できる人気のある機械学習アルゴリズムです。それらはデータセットを最も重要な特...

機械学習

「Med-Flamingoに会ってください:医療分野向けのマルチモーダルな文脈学習を実行できるユニークな基盤モデル」

人工知能(AI)の人気が高まるにつれて、基礎モデルはラベル付きのインスタンスによって提供されるわずかな情報だけで、さま...

データサイエンス

「2023年の人工知能(AI)と機械学習に関連するサブレディットコミュニティ15選」

人工知能(AI)と機械学習の世界では、最新のトレンド、ブレイクスルー、議論について最新情報を得ることが重要です。インタ...

機械学習

「Verbaに会ってください:自分自身のRAG検索増強生成パイプラインを構築し、LLMを内部ベースの出力に活用するためのオープンソースツール」

Verbaは、RAGアプリにシンプルで使いやすいインターフェースを提供するオープンソースプロジェクトです。データにダイブして...

AI研究

メタリサーチャーズがVR-NeRFを紹介:高精細なキャプチャーと仮想現実の歩行可能な空間のレンダリングのための先進的なエンドツーエンドAIシステム

手頃な価格の仮想現実(VR)技術の登場により、現実的なVR写真やビデオなどの高度に没入型の映像メディアが大幅に成長してい...