マイクロソフトの研究者は、2段階の介入フレームワークを使用したオープンボキャブラリー責任ある視覚合成(ORES)を提案しています

マイクロソフトの研究者は、ORES(オープンボキャブラリー責任ある視覚合成)を提案しています

ビジュアル合成モデルは、大規模なモデルトレーニングの進歩により、ますます現実的なビジュアルを生成することができるようになりました。合成された画像を使用する可能性が高まるにつれて、特定のビジュアル要素を除外するために合成中に人種差別、性差別、ヌードなどの要素を排除するために、責任あるAIがますます重要になっています。しかし、責任あるビジュアル合成は2つの基本的な理由から非常に困難な課題です。まず、合成された画像が管理者の基準に準拠するためには、「ビル・ゲイツ」と「マイクロソフトの創業者」といった言葉は現れていない必要があります。第二に、ユーザーの問い合わせの非禁止部分は、ユーザーの基準を満たすように正確に合成される必要があります。

既存の責任あるビジュアル合成技術は、上記で述べた問題を解決するために、次の3つの主要なカテゴリに分けることができます: 入力の改善、出力の改善、モデルの改善。最初の戦略である入力の改善は、ユーザーのクエリを事前処理して管理者の要求に従うことに集中します。例えば、不適切なアイテムをフィルタリングするためのブラックリストの構築などです。オープンボキャブラリの環境では、ブラックリストがすべての望ましくないアイテムを完全に排除することは困難です。2番目の方法である出力の改善は、作成された映画を事後処理して管理者のルールに従うことを意味します。たとえば、Not-Safe-For-Work(NSFW)コンテンツを特定して削除することで、出力の適合性を保証します。

この技術では、事前トレーニングされた特定の概念に基づくフィルタリングモデルに依存しているため、オープンボキャブラリのビジュアルアイデアを特定することは困難です。3番目の戦略であるモデルの改善は、モデル全体または特定のコンポーネントを微調整して、管理者の基準を理解し満たすようにし、指定されたルールと規制に一致する素材を提供する能力を向上させます。ただし、チューニングデータのバイアスがしばしばこれらの技術に制限を加えるため、オープンボキャブラリの機能に到達することは困難です。これにより、次の問題が生じます: オープンボキャブラリによる責任あるビジュアル合成の実現によって、管理者は任意のビジュアルアイデアの作成を効果的に禁止することができるのでしょうか? たとえば、ユーザーは図1で「マイクロソフトの創業者がパブでワインを飲んでいる」という要求を出すかもしれません。

 図1. オープンボキャブラリによる責任あるビジュアル合成

地理、文脈、使用状況によっては、適切なビジュアル合成のためにさまざまなビジュアルコンセプトを避ける必要があります。

管理者が「ビル・ゲイツ」や「アルコール」といったアイデアを禁止として入力する場合、責任ある出力は、日常的な表現と同様に概念を明確にする必要があります。マイクロソフトの研究者は、これらの観察に基づいて、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しています。このジョブでは、ビジュアル合成モデルは明示的に指定されていない任意のビジュアル要素を回避しながら、ユーザーが望む情報を入力できるようにすることができます。そして、Two-stage Intervention (TIN)構造が導入されます。これにより、特定の概念を避けながら、ユーザーの問い合わせにできるだけ忠実に合成することができる1) 大規模言語モデル(LLM)を使用した学習可能な命令による書き換えと、2) 拡散合成モデルによる迅速な介入による合成が行われます。

TINは学習可能なクエリの指示の下で、CHATGPTを特定の質問をリスク低減されたクエリに書き換えるために適用します。中間合成段階では、TINはユーザーのクエリをリスク低減されたクエリで置き換えることによって合成に介入します。彼らはベンチマーク、関連するベースラインモデル、ブラックリスト、ネガティブプロンプト、および一般に公開可能なデータセットを開発しました。彼らは大規模な言語モデルとビジュアル合成モデルを組み合わせています。彼らの知る限りでは、彼らはオープンボキャブラリのシナリオで責任あるビジュアル合成を研究する最初の人々です。

付録では、彼らのコードとデータセットが誰にでもアクセス可能です。彼らは次の貢献をしました:

• 実行可能性の証拠として、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しました。適切なベースラインモデルとベンチマークを開発し、一般にアクセス可能なデータセットを確立しました。

• ORESの成功した対策として、彼らはTwo-stage Intervention (TIN) フレームワークを提供しています。これは以下の手順からなります:

1) 大規模言語モデル(LLM)を用いた学習可能な教育による書き換え

2) 拡散合成モデルによる迅速な介入による合成

• 研究により、彼らのアプローチは適切でないモデルの開発の可能性を大幅に低減することが示されています。彼らはLLMの責任あるビジュアル合成の能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(G...

AI研究

GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保す...

機械学習

このAI論文は、周波数領域での差分プライバシーを利用したプライバシー保護顔認識手法を提案しています

ディープラーニングは、畳み込みニューラルネットワークに基づいた顔認識モデルを大幅に進化させました。これらのモデルは高...

機械学習

「自動通話要約を通じて、エージェントの生産性を向上させるために生成的AIを使用する」

あなたのコンタクトセンターは、ビジネスと顧客の間の重要なリンクとして機能しますコンタクトセンターへのすべての電話は、...

AIニュース

ツール・ド・フランスは、ChatGPTとデジタルツインテクノロジーを導入しました

日本を拠点とする情報技術およびサービス企業NTTは、今年のツール・ド・フランスにChatGPTと「世界最大のコネクテッドスタジ...