マイクロソフトの研究者は、2段階の介入フレームワークを使用したオープンボキャブラリー責任ある視覚合成(ORES)を提案しています

マイクロソフトの研究者は、ORES(オープンボキャブラリー責任ある視覚合成)を提案しています

ビジュアル合成モデルは、大規模なモデルトレーニングの進歩により、ますます現実的なビジュアルを生成することができるようになりました。合成された画像を使用する可能性が高まるにつれて、特定のビジュアル要素を除外するために合成中に人種差別、性差別、ヌードなどの要素を排除するために、責任あるAIがますます重要になっています。しかし、責任あるビジュアル合成は2つの基本的な理由から非常に困難な課題です。まず、合成された画像が管理者の基準に準拠するためには、「ビル・ゲイツ」と「マイクロソフトの創業者」といった言葉は現れていない必要があります。第二に、ユーザーの問い合わせの非禁止部分は、ユーザーの基準を満たすように正確に合成される必要があります。

既存の責任あるビジュアル合成技術は、上記で述べた問題を解決するために、次の3つの主要なカテゴリに分けることができます: 入力の改善、出力の改善、モデルの改善。最初の戦略である入力の改善は、ユーザーのクエリを事前処理して管理者の要求に従うことに集中します。例えば、不適切なアイテムをフィルタリングするためのブラックリストの構築などです。オープンボキャブラリの環境では、ブラックリストがすべての望ましくないアイテムを完全に排除することは困難です。2番目の方法である出力の改善は、作成された映画を事後処理して管理者のルールに従うことを意味します。たとえば、Not-Safe-For-Work(NSFW)コンテンツを特定して削除することで、出力の適合性を保証します。

この技術では、事前トレーニングされた特定の概念に基づくフィルタリングモデルに依存しているため、オープンボキャブラリのビジュアルアイデアを特定することは困難です。3番目の戦略であるモデルの改善は、モデル全体または特定のコンポーネントを微調整して、管理者の基準を理解し満たすようにし、指定されたルールと規制に一致する素材を提供する能力を向上させます。ただし、チューニングデータのバイアスがしばしばこれらの技術に制限を加えるため、オープンボキャブラリの機能に到達することは困難です。これにより、次の問題が生じます: オープンボキャブラリによる責任あるビジュアル合成の実現によって、管理者は任意のビジュアルアイデアの作成を効果的に禁止することができるのでしょうか? たとえば、ユーザーは図1で「マイクロソフトの創業者がパブでワインを飲んでいる」という要求を出すかもしれません。

 図1. オープンボキャブラリによる責任あるビジュアル合成

地理、文脈、使用状況によっては、適切なビジュアル合成のためにさまざまなビジュアルコンセプトを避ける必要があります。

管理者が「ビル・ゲイツ」や「アルコール」といったアイデアを禁止として入力する場合、責任ある出力は、日常的な表現と同様に概念を明確にする必要があります。マイクロソフトの研究者は、これらの観察に基づいて、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しています。このジョブでは、ビジュアル合成モデルは明示的に指定されていない任意のビジュアル要素を回避しながら、ユーザーが望む情報を入力できるようにすることができます。そして、Two-stage Intervention (TIN)構造が導入されます。これにより、特定の概念を避けながら、ユーザーの問い合わせにできるだけ忠実に合成することができる1) 大規模言語モデル(LLM)を使用した学習可能な命令による書き換えと、2) 拡散合成モデルによる迅速な介入による合成が行われます。

TINは学習可能なクエリの指示の下で、CHATGPTを特定の質問をリスク低減されたクエリに書き換えるために適用します。中間合成段階では、TINはユーザーのクエリをリスク低減されたクエリで置き換えることによって合成に介入します。彼らはベンチマーク、関連するベースラインモデル、ブラックリスト、ネガティブプロンプト、および一般に公開可能なデータセットを開発しました。彼らは大規模な言語モデルとビジュアル合成モデルを組み合わせています。彼らの知る限りでは、彼らはオープンボキャブラリのシナリオで責任あるビジュアル合成を研究する最初の人々です。

付録では、彼らのコードとデータセットが誰にでもアクセス可能です。彼らは次の貢献をしました:

• 実行可能性の証拠として、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しました。適切なベースラインモデルとベンチマークを開発し、一般にアクセス可能なデータセットを確立しました。

• ORESの成功した対策として、彼らはTwo-stage Intervention (TIN) フレームワークを提供しています。これは以下の手順からなります:

1) 大規模言語モデル(LLM)を用いた学習可能な教育による書き換え

2) 拡散合成モデルによる迅速な介入による合成

• 研究により、彼らのアプローチは適切でないモデルの開発の可能性を大幅に低減することが示されています。彼らはLLMの責任あるビジュアル合成の能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データの必要量はどのくらいですか? 機械学習とセキュリティの考慮事項のバランス」

データサイエンティストにとって、データは多ければ多いほどよいものとは限りませんしかし、組織の文脈を広く見ると、自身の...

機械学習

「AIセキュリティへの6つのステップ」

ChatGPTの登場に伴い、すべての企業がAI戦略を考えようとしており、その作業にはすぐにセキュリティの問題が浮かび上がります...

機械学習

アンサンブル学習技術:Pythonでのランダムフォレストを使った手順解説

Pythonにおけるランダムフォレストの実践的な手順解説

人工知能

ChatGPTから独自のプライベートなフランス語チューターを作成する方法

議論された外国語チューターのコードは、私のGitHubページの同梱リポジトリで見つけることができます非商業利用に限り、自由...

データサイエンス

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル(LLM)の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々...

機械学習

「人工知能の世界を探索する:初心者ガイド」

この記事では、人工知能の新興で興奮するような分野について、さまざまなシステムの種類、リスク、利点について説明します