「ダレ恵3の翻訳に迷い込んで」

『ダレ恵3の翻訳に興奮して』

複数の言語でAI画像を生成すると異なる結果が得られる

「人の画像」のプロンプトでDALL-E 3を使用して生成された6つの言語の画像。著者によって作成された図。

はじめに

OpenAIは最新のAI画像生成モデルであるDALL-E 3を最近リリースしました。

しかし、最近のメディア報道と研究によると、これらのAIモデルにはバイアスやステレオタイプが付随しています。例えば、Stable DiffusionやMidjourneyなどのAI画像生成モデルは、人種、性別国籍に関する既存のステレオタイプを強調する傾向があります。

ただし、これらの研究のほとんどは主に英語のプロンプトを使用してモデルをテストしています。これは次の疑問を提起します:非英語のプロンプトに対してこれらのモデルはどのように反応するのでしょうか?

本記事では、DALL-E 3の振る舞いについて、さまざまな言語のプロンプトを使用して探究します。私の以前の作品のテーマから着想を得て、最新のAI画像生成モデルについて多言語の視点を提供します。

DALL-E 3の動作:プロンプト変換

従来のAI画像生成モデルとは異なり、このDALL-Eモデルの最新版は直接入力された内容を生成しません。代わりに、DALL-E 3は自動的なプロンプト変換を取り入れており、元のプロンプトをより詳細なバージョンに変換します。

OpenAIによるキャプション改善プロセスの詳細を示した図。作成者による図。

DALL-E 3システムカードによると、これを行った理由はいくつかあります:

  • キャプションをより詳細に改善するため
  • 公共の人物の名前を削除する
  • 生成される人物のより多様な説明を指定する(以前のプロンプト変換前の生成された人物は主に白人、若い女性である傾向がありました)

したがって、画像生成プロセスは次のようになります:

  1. DALL-E 3にプロンプトを入力します(ChatGPT Plusを介して利用可能)
  2. プロンプトは内部で4つの異なる変換されたプロンプトに修正されます
  3. DALL-E 3はそれぞれの変換されたプロンプトを基に画像を生成します

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more