「DreamIdentityに会ってください:テキストから画像モデルのための編集可能性を保ちつつ、各顔のアイデンティティのための最適化フリーAIメソッド」

「DreamIdentityに会ってください:テキストから画像モデルのための編集可能性を保ちつつ、各顔のアイデンティティのための最適化フリーAIメソッド」 Please meet DreamIdentity an optimization-free AI method for maintaining editability for each face's identity in text-to-image models.

最近、拡散ベースの大規模テキストから画像(T2I)モデルのおかげで、視覚素材の作成の学問は変化しています。これらのT2Iモデルにより、魅力的で表現力豊かで人間中心のグラフィックを簡単に作成することができます。これらのモデルの興味深い使用法の1つは、特定の人物の顔(私たちの家族や友人など)の日常生活の中で、自然言語の説明を使用してアイデンティティに関連するさまざまな状況を生成する能力です。ID保存を維持しながら、テキストの手がかりに従うことが求められる典型的なT2Iのタスクから外れたアイデンティティ再文脈化の課題を示す図1に示されています。

図1は、DreamIdentityがテスト時間の最適化を必要とせずに、単一の顔画像からさまざまな文脈でアイデンティティを保存し、テキストに一貫性のある画像を大量に作成する方法を効果的に示しています。

ある顔のアイデンティティに対して事前学習されたT2Iモデルを個別にパーソナライズすることは実行可能な方法です。これには、特定の単語を本質と関連付けるための単語埋め込みの強化またはモデルパラメータの微調整を学習する必要があります。個別のアイデンティティの最適化のため、これらの最適化ベースのアプローチはより効率的であることがあります。時間のかかる個別のアイデンティティの最適化を回避するために、さまざまな最適化フリーメソッドは、事前学習された画像エンコーダ(通常はCLIP)から取得した画像の特徴を単語埋め込みに直接マッピングすることを提案しています。ただし、これによりID保存が犠牲になります。したがって、これらの技術は、事前学習されたT2Iモデルの編集スキルを損なう危険性があります。なぜなら、それらは事前学習されたT2Iモデルのパラメータの微調整を要求したり、追加のグリッドイメージ特性を注入するために元の構造を変更することを要求するからです。

簡単に言えば、同時最適化フリーの試みは、アイデンティティを維持しながらモデルの編集可能性を維持することに苦労しています。彼らは、誤ったアイデンティティ特徴表現とトレーニングとテストの間の一貫性のない目標という2つの問題が、既存の最適化フリーの研究における上記の困難の根本原因であると主張しています。一方、現時点での最高のCLIPモデルは、最も優れた顔認識モデルと比較して、トップ1の顔識別精度(80.95%対87.61%)で大幅に劣ることは、同時最適化の取り組みによって利用される一般的なエンコーダ(CLIP)がアイデンティティ再文脈化の仕事には不適切であることを示しています。さらに、CLIPの最終層の特徴は、正確な顔の説明よりも高レベルの意味に焦点を当てているため、識別情報を維持できません。

すべての同時タスクは、単語埋め込みを学習するためにバニラの再構成目的を使用することにより、入力顔の編集可能性に悪影響を与えます。上記で説明したアイデンティティの保存と編集可能性の困難に対処するために、正確なアイデンティティ表現と一貫したトレーニング/推論目標を持つユニークな最適化フリーフレームワーク(DreamIdentityと呼ばれる)を提供します。より具体的には、ビジョンTransformerのアーキテクチャに正しい識別表現を備えたユニークなマルチワードマルチスケールIDエンコーダ(M2 IDエンコーダ)を作成します。このエンコーダは、大規模な顔データセットで事前学習され、マルチスケールの特徴をマルチワード埋め込みに投影します。

中国科学技術大学と字節跳動の研究者は、セルフオーグメンテーション編集学習法を提案し、編集タスクをトレーニングフェーズに移動させる方法を示しています。この方法では、T2Iモデルを使用してセレブリティの顔やさまざまなターゲット編集されたセレブリティの画像を生成することで、自己拡張データセットを構築します。このデータセットを使用してM2 IDエンコーダをトレーニングし、モデルの編集可能性を向上させます。彼らはこの研究に以下の貢献をしました:誤った表現と一貫しないトレーニング/推論目標のため、既存の最適化フリーのアプローチはIDの保存と高い編集可能性には無効です。

技術的に言えば、(1)適切な表現のためのID意識マルチスケール特徴とマルチ埋め込み投影を持つM2 IDエンコーダを提案します。 (2)トレーニングと推論の一貫性を実現するために、自己拡張編集性学習を組み込んで、基礎となるT2Iモデルが編集に高品質なデータセットを提供することができるようにします。包括的な研究によって、アイデンティティの保存と柔軟なテキストガイドの変更、またはアイデンティティ再文脈化を実現する、彼らのアプローチの効果が示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

フロントエンド開発のトレンド

最先端の進歩や最高水準のイノベーションが、現在ウェブ開発の世界を形作っている様子について、私たちと一緒に深く掘り下げ...

機械学習

ID対マルチモーダル推奨システム:転移学習の視点

この記事は、移転可能な推薦システムの開発状況と代表的な作業(IDベース、モダリティベース、および大規模言語モデルベース...

機械学習

自己対戦を通じて単純なゲームをマスターするエージェントのトレーニング

「完全情報ゲームで優れるために必要なすべてがゲームのルールにすべて見えるというのはすごいことですね残念ながら、私のよ...

データサイエンス

「テーマパークのシミュレーション:Rを使って待ち時間を理解する」

長い列はいつも嫌なものです、特に宇宙を舞い上がるか、グレート・バリア・リーフを航行するために待っている時には夏休みが...

AIニュース

エロン・マスクのxAIがOpenAIのChatGPTに挑戦します

ビジョン溢れる億万長者であるイーロン・マスクは、電気自動車、宇宙探査、ソーシャルメディアなどの事業を手掛ける人物で、...

AI研究

ソウル国立大学の研究者たちは、効率的かつ適応性のあるロボット制御のための革新的なAI手法であるロコモーション・アクション・マニピュレーション(LAMA)を紹介しています

ソウル国立大学の研究者は、ロボット工学における効率的かつ適応性のあるロボットの制御という基本的な課題に取り組んでいま...