「DreamIdentityに会ってください:テキストから画像モデルのための編集可能性を保ちつつ、各顔のアイデンティティのための最適化フリーAIメソッド」
「DreamIdentityに会ってください:テキストから画像モデルのための編集可能性を保ちつつ、各顔のアイデンティティのための最適化フリーAIメソッド」 Please meet DreamIdentity an optimization-free AI method for maintaining editability for each face's identity in text-to-image models.
最近、拡散ベースの大規模テキストから画像(T2I)モデルのおかげで、視覚素材の作成の学問は変化しています。これらのT2Iモデルにより、魅力的で表現力豊かで人間中心のグラフィックを簡単に作成することができます。これらのモデルの興味深い使用法の1つは、特定の人物の顔(私たちの家族や友人など)の日常生活の中で、自然言語の説明を使用してアイデンティティに関連するさまざまな状況を生成する能力です。ID保存を維持しながら、テキストの手がかりに従うことが求められる典型的なT2Iのタスクから外れたアイデンティティ再文脈化の課題を示す図1に示されています。
ある顔のアイデンティティに対して事前学習されたT2Iモデルを個別にパーソナライズすることは実行可能な方法です。これには、特定の単語を本質と関連付けるための単語埋め込みの強化またはモデルパラメータの微調整を学習する必要があります。個別のアイデンティティの最適化のため、これらの最適化ベースのアプローチはより効率的であることがあります。時間のかかる個別のアイデンティティの最適化を回避するために、さまざまな最適化フリーメソッドは、事前学習された画像エンコーダ(通常はCLIP)から取得した画像の特徴を単語埋め込みに直接マッピングすることを提案しています。ただし、これによりID保存が犠牲になります。したがって、これらの技術は、事前学習されたT2Iモデルの編集スキルを損なう危険性があります。なぜなら、それらは事前学習されたT2Iモデルのパラメータの微調整を要求したり、追加のグリッドイメージ特性を注入するために元の構造を変更することを要求するからです。
簡単に言えば、同時最適化フリーの試みは、アイデンティティを維持しながらモデルの編集可能性を維持することに苦労しています。彼らは、誤ったアイデンティティ特徴表現とトレーニングとテストの間の一貫性のない目標という2つの問題が、既存の最適化フリーの研究における上記の困難の根本原因であると主張しています。一方、現時点での最高のCLIPモデルは、最も優れた顔認識モデルと比較して、トップ1の顔識別精度(80.95%対87.61%)で大幅に劣ることは、同時最適化の取り組みによって利用される一般的なエンコーダ(CLIP)がアイデンティティ再文脈化の仕事には不適切であることを示しています。さらに、CLIPの最終層の特徴は、正確な顔の説明よりも高レベルの意味に焦点を当てているため、識別情報を維持できません。
すべての同時タスクは、単語埋め込みを学習するためにバニラの再構成目的を使用することにより、入力顔の編集可能性に悪影響を与えます。上記で説明したアイデンティティの保存と編集可能性の困難に対処するために、正確なアイデンティティ表現と一貫したトレーニング/推論目標を持つユニークな最適化フリーフレームワーク(DreamIdentityと呼ばれる)を提供します。より具体的には、ビジョンTransformerのアーキテクチャに正しい識別表現を備えたユニークなマルチワードマルチスケールIDエンコーダ(M2 IDエンコーダ)を作成します。このエンコーダは、大規模な顔データセットで事前学習され、マルチスケールの特徴をマルチワード埋め込みに投影します。
中国科学技術大学と字節跳動の研究者は、セルフオーグメンテーション編集学習法を提案し、編集タスクをトレーニングフェーズに移動させる方法を示しています。この方法では、T2Iモデルを使用してセレブリティの顔やさまざまなターゲット編集されたセレブリティの画像を生成することで、自己拡張データセットを構築します。このデータセットを使用してM2 IDエンコーダをトレーニングし、モデルの編集可能性を向上させます。彼らはこの研究に以下の貢献をしました:誤った表現と一貫しないトレーニング/推論目標のため、既存の最適化フリーのアプローチはIDの保存と高い編集可能性には無効です。
技術的に言えば、(1)適切な表現のためのID意識マルチスケール特徴とマルチ埋め込み投影を持つM2 IDエンコーダを提案します。 (2)トレーニングと推論の一貫性を実現するために、自己拡張編集性学習を組み込んで、基礎となるT2Iモデルが編集に高品質なデータセットを提供することができるようにします。包括的な研究によって、アイデンティティの保存と柔軟なテキストガイドの変更、またはアイデンティティ再文脈化を実現する、彼らのアプローチの効果が示されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google AIは、環境の多様性と報酬の指定の課題に対処するための、普遍的なポリシー(UniPi)を提案します
- 私の物理学の博士号へのオード
- 「バイオメトリクスをサイバーセキュリティの手法としての利用」というテキストです
- 「LLMsの信頼性のあるフューショットプロンプトの選択を確保する」
- 「LLMsとメモリは間違いなく必要なものです:Googleはメモリを補完したLLMsが任意のチューリングマシンをシミュレートできることを示しています」
- このAI論文では、ChatGPTに焦点を当て、テキスト注釈タスクにおける大規模言語モデル(LLM)のポテンシャルを探求しています
- GPT-4のようなモデルは、行動能力を与えられた場合に安全に振る舞うのか?:このAI論文では、「MACHIAVELLIベンチマーク」を導入して、マシン倫理を向上させ、より安全な適応エージェントを構築することを提案しています