GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

生成型人工知能の分野は、当然の注目を浴びています。テキストから画像へのパーソナライゼーションの最近の進展は、革新的な利用可能性を開拓しています。個別性の概念は、高いアイデンティティの一貫性を保ちながら、様々な文脈とスタイルで独特の人物を生成することを指し、生成型AIにおいて重要なトピックとなっています。顔のパーソナライゼーションは、様々なスタイルで特定の顔や人物の新しい写真を生成する能力を指し、様々なスタイルに強い事前学習済みの拡散モデルを利用することで実現されています。

DreamBoothなどの現在の手法は、新しい主題をモデルに組み込む能力があり、過去の知識を損なうことなく、主題の本質と詳細を広範な方法で維持することに成功しています。しかし、モデルのサイズや学習速度など、多くの制限があります。Stable DiffusionのためのUNetとText Encoderの全ての重みを微調整するDreamBoothは、安定した拡散において1GB以上のサイズになるため、非常に大きいです。また、Stable Diffusionのトレーニング手順には約5分かかるため、広範な採用や実際の応用を妨げる可能性があります。

これらの課題を克服するために、Google Researchの研究チームはHyperDreamBoothを提案しました。HyperDreamBoothは、単一の人物の画像から効率的に個人化された重みの小さなセットを生成するハイパーネットワークです。単一の人物の画像だけで、HyperDreamBoothのハイパーネットワークは効果的に個人化された重みの小さなコレクションを作成します。これらのユニークな重みを持つ拡散モデルと組み合わせ、クイックな微調整を行います。その結果、細かいトピックの詳細と拡散モデルのさまざまな美学と意味の変更に対する基本的な理解を維持しながら、人物の顔をさまざまな状況と美学で生成する強力なシステムが実現します。

HyperDreamBoothの驚異的な速度は、その最大の成果の一つです。DreamBoothよりも25倍速く、Textual Inversionという関連技術と比較しても驚異的な125倍速く、わずか20秒で顔をパーソナライズすることができます。さらに、DreamBoothと同じ品質と美学の変動を保ちながら、このクイックなカスタマイズ手順には参照画像が1つだけ必要です。HyperDreamBoothは、速度に加えて、モデルのサイズでも優れています。結果として得られる個別化モデルは、通常のDreamBoothモデルよりも10,000倍小さくなります。これは、モデルをより管理しやすくし、ストレージの要件を大幅に削減するという重要な利点です。

研究チームは、以下の貢献をまとめています:

  1. 軽量DreamBooth(LiDB):約100KBのカスタムパートを持つパーソナライズされたテキストから画像へのモデルが導入されました。これは、ランダムな直交不完全基底による低次元の重み空間でDreamBoothモデルをトレーニングすることによって実現されています。
  1. 新しいハイパーネットワークアーキテクチャ:LiDBの構成を使用して、ハイパーネットワークはテキストから画像への拡散モデルに特定の主題のためのカスタマイズされた重みを生成します。これにより、強力な方向性の初期化が可能となり、高い主題の忠実度をいくつかの反復で素早く微調整することができます。この手法は、DreamBoothと比較して25倍速いパフォーマンスを提供します。
  1. ランクリラックス微調整:LoRA DreamBoothモデルのランクをリラックスさせることで、主題の忠実度を向上させるためのランクリラックス微調整技術が提案されました。これにより、ハイパーネットワークからの初期近似値で個人化モデルを初期化し、ランクリラックス微調整を使用して高レベルの主題の詳細を洗練させることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「このAI論文は、初めて軽量な基礎モデルを宇宙空間に展開します」

宇宙技術は日々進化しています。異なる研究グループからは、宇宙研究に影響を与える機械学習と人工知能モデルを宇宙で構築す...

データサイエンス

「ジョンズホプキンスのこの論文は、時間と望遠鏡を超えて宇宙の発見の確率的カタログマッチングを加速させるデータサイエンスの役割を強調しています」

宇宙研究において、同じ星や銀河が異なる天空調査で見つかるかどうかという問題があります。現在の望遠鏡は、さまざまな種類...

機械学習

「マイクロソフトは、VALLE-Xをオープンソース化しました:多言語対応のテキスト読み上げ合成および音声クローニングモデル」

マイクロソフトのVALL-E XゼロショットTTSモデルのオープンソース実装が登場しました。これにより、テキスト読み上げ合成と音...

データサイエンス

『Amazon SageMaker を使用して、Talent.com の ETL データ処理を効率化する』

この投稿では、Talent.comでの求人推薦モデルのトレーニングと展開のために開発したETLパイプラインについて説明します当社の...

機械学習

このAIの論文は、マルチビュー映像を使用して3Dシーンダイナミクスをモデリングするための画期的な方法を紹介しています

NVFiは、時間の経過に伴って進化する3Dシーンのダイナミクスを理解し予測するという複雑な課題に取り組んでいます。これは、...

機械学習

「GPUの加速なしで大規模なシーンをリアルタイムでマッピングできるのか?このAI論文は、高度なLiDARベースの位置特定とメッシュ作成のために「ImMesh」を紹介します」

実際の世界にマッチする仮想環境を提供することで、メタバース、VR / AR、ビデオゲーム、物理シミュレータを含む3Dアプリケー...