マイクロソフトの研究者は、2段階の介入フレームワークを使用したオープンボキャブラリー責任ある視覚合成(ORES)を提案しています

マイクロソフトの研究者は、ORES(オープンボキャブラリー責任ある視覚合成)を提案しています

ビジュアル合成モデルは、大規模なモデルトレーニングの進歩により、ますます現実的なビジュアルを生成することができるようになりました。合成された画像を使用する可能性が高まるにつれて、特定のビジュアル要素を除外するために合成中に人種差別、性差別、ヌードなどの要素を排除するために、責任あるAIがますます重要になっています。しかし、責任あるビジュアル合成は2つの基本的な理由から非常に困難な課題です。まず、合成された画像が管理者の基準に準拠するためには、「ビル・ゲイツ」と「マイクロソフトの創業者」といった言葉は現れていない必要があります。第二に、ユーザーの問い合わせの非禁止部分は、ユーザーの基準を満たすように正確に合成される必要があります。

既存の責任あるビジュアル合成技術は、上記で述べた問題を解決するために、次の3つの主要なカテゴリに分けることができます: 入力の改善、出力の改善、モデルの改善。最初の戦略である入力の改善は、ユーザーのクエリを事前処理して管理者の要求に従うことに集中します。例えば、不適切なアイテムをフィルタリングするためのブラックリストの構築などです。オープンボキャブラリの環境では、ブラックリストがすべての望ましくないアイテムを完全に排除することは困難です。2番目の方法である出力の改善は、作成された映画を事後処理して管理者のルールに従うことを意味します。たとえば、Not-Safe-For-Work(NSFW)コンテンツを特定して削除することで、出力の適合性を保証します。

この技術では、事前トレーニングされた特定の概念に基づくフィルタリングモデルに依存しているため、オープンボキャブラリのビジュアルアイデアを特定することは困難です。3番目の戦略であるモデルの改善は、モデル全体または特定のコンポーネントを微調整して、管理者の基準を理解し満たすようにし、指定されたルールと規制に一致する素材を提供する能力を向上させます。ただし、チューニングデータのバイアスがしばしばこれらの技術に制限を加えるため、オープンボキャブラリの機能に到達することは困難です。これにより、次の問題が生じます: オープンボキャブラリによる責任あるビジュアル合成の実現によって、管理者は任意のビジュアルアイデアの作成を効果的に禁止することができるのでしょうか? たとえば、ユーザーは図1で「マイクロソフトの創業者がパブでワインを飲んでいる」という要求を出すかもしれません。

 図1. オープンボキャブラリによる責任あるビジュアル合成

地理、文脈、使用状況によっては、適切なビジュアル合成のためにさまざまなビジュアルコンセプトを避ける必要があります。

管理者が「ビル・ゲイツ」や「アルコール」といったアイデアを禁止として入力する場合、責任ある出力は、日常的な表現と同様に概念を明確にする必要があります。マイクロソフトの研究者は、これらの観察に基づいて、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しています。このジョブでは、ビジュアル合成モデルは明示的に指定されていない任意のビジュアル要素を回避しながら、ユーザーが望む情報を入力できるようにすることができます。そして、Two-stage Intervention (TIN)構造が導入されます。これにより、特定の概念を避けながら、ユーザーの問い合わせにできるだけ忠実に合成することができる1) 大規模言語モデル(LLM)を使用した学習可能な命令による書き換えと、2) 拡散合成モデルによる迅速な介入による合成が行われます。

TINは学習可能なクエリの指示の下で、CHATGPTを特定の質問をリスク低減されたクエリに書き換えるために適用します。中間合成段階では、TINはユーザーのクエリをリスク低減されたクエリで置き換えることによって合成に介入します。彼らはベンチマーク、関連するベースラインモデル、ブラックリスト、ネガティブプロンプト、および一般に公開可能なデータセットを開発しました。彼らは大規模な言語モデルとビジュアル合成モデルを組み合わせています。彼らの知る限りでは、彼らはオープンボキャブラリのシナリオで責任あるビジュアル合成を研究する最初の人々です。

付録では、彼らのコードとデータセットが誰にでもアクセス可能です。彼らは次の貢献をしました:

• 実行可能性の証拠として、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しました。適切なベースラインモデルとベンチマークを開発し、一般にアクセス可能なデータセットを確立しました。

• ORESの成功した対策として、彼らはTwo-stage Intervention (TIN) フレームワークを提供しています。これは以下の手順からなります:

1) 大規模言語モデル(LLM)を用いた学習可能な教育による書き換え

2) 拡散合成モデルによる迅速な介入による合成

• 研究により、彼らのアプローチは適切でないモデルの開発の可能性を大幅に低減することが示されています。彼らはLLMの責任あるビジュアル合成の能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「シームレスM4Tに出会ってください:Meta AIの新しいスピーチ翻訳の基盤モデル」

「音声は急速に基盤モデルの次のフロンティアの一つとなっています言語やコンピュータビジョンなどの領域がまだ主流ですが、...

AI研究

シンガポール国立大学の研究者たちは、ピクセルベースと潜在ベースのVDMを結びつけたハイブリッド人工知能モデルであるShow-1を提案しますこれはテキストからビデオを生成するものです

シンガポール国立大学の研究者たちは、Show-1というハイブリッドモデルを導入しました。テキストからビデオを生成するための...

AI研究

「システムは光と電子を組み合わせて、より速く、より環境に優しいコンピューティングを実現します」

「Lightning(雷)」システムは、新しい抽象化を使用して、光子をコンピュータの電子部品に接続し、リアルタイムの機械学習推...

機械学習

「ONNXフレームワークによるモデルの相互運用性と効率の向上」

ONNXは、異なるプラットフォーム間でのディープラーニングモデルの簡単な転送と実行を可能にするオープンソースのフレームワ...

AI研究

不確実な現実世界の状況においてマシンを効果的にトレーニングするための方法

研究者たちは、自己学習すべき時と、教師に従うべき時を判断するアルゴリズムを開発しました

データサイエンス

Stack Overflowで最もよく尋ねられるPythonリストの10の質問

Stack Overflowは、ソフトウェア、コーディング、データサイエンスなど、さまざまな分野において、数千もの質問と回答を見つ...