GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

生成型人工知能の分野は、当然の注目を浴びています。テキストから画像へのパーソナライゼーションの最近の進展は、革新的な利用可能性を開拓しています。個別性の概念は、高いアイデンティティの一貫性を保ちながら、様々な文脈とスタイルで独特の人物を生成することを指し、生成型AIにおいて重要なトピックとなっています。顔のパーソナライゼーションは、様々なスタイルで特定の顔や人物の新しい写真を生成する能力を指し、様々なスタイルに強い事前学習済みの拡散モデルを利用することで実現されています。

DreamBoothなどの現在の手法は、新しい主題をモデルに組み込む能力があり、過去の知識を損なうことなく、主題の本質と詳細を広範な方法で維持することに成功しています。しかし、モデルのサイズや学習速度など、多くの制限があります。Stable DiffusionのためのUNetとText Encoderの全ての重みを微調整するDreamBoothは、安定した拡散において1GB以上のサイズになるため、非常に大きいです。また、Stable Diffusionのトレーニング手順には約5分かかるため、広範な採用や実際の応用を妨げる可能性があります。

これらの課題を克服するために、Google Researchの研究チームはHyperDreamBoothを提案しました。HyperDreamBoothは、単一の人物の画像から効率的に個人化された重みの小さなセットを生成するハイパーネットワークです。単一の人物の画像だけで、HyperDreamBoothのハイパーネットワークは効果的に個人化された重みの小さなコレクションを作成します。これらのユニークな重みを持つ拡散モデルと組み合わせ、クイックな微調整を行います。その結果、細かいトピックの詳細と拡散モデルのさまざまな美学と意味の変更に対する基本的な理解を維持しながら、人物の顔をさまざまな状況と美学で生成する強力なシステムが実現します。

HyperDreamBoothの驚異的な速度は、その最大の成果の一つです。DreamBoothよりも25倍速く、Textual Inversionという関連技術と比較しても驚異的な125倍速く、わずか20秒で顔をパーソナライズすることができます。さらに、DreamBoothと同じ品質と美学の変動を保ちながら、このクイックなカスタマイズ手順には参照画像が1つだけ必要です。HyperDreamBoothは、速度に加えて、モデルのサイズでも優れています。結果として得られる個別化モデルは、通常のDreamBoothモデルよりも10,000倍小さくなります。これは、モデルをより管理しやすくし、ストレージの要件を大幅に削減するという重要な利点です。

研究チームは、以下の貢献をまとめています:

  1. 軽量DreamBooth(LiDB):約100KBのカスタムパートを持つパーソナライズされたテキストから画像へのモデルが導入されました。これは、ランダムな直交不完全基底による低次元の重み空間でDreamBoothモデルをトレーニングすることによって実現されています。
  1. 新しいハイパーネットワークアーキテクチャ:LiDBの構成を使用して、ハイパーネットワークはテキストから画像への拡散モデルに特定の主題のためのカスタマイズされた重みを生成します。これにより、強力な方向性の初期化が可能となり、高い主題の忠実度をいくつかの反復で素早く微調整することができます。この手法は、DreamBoothと比較して25倍速いパフォーマンスを提供します。
  1. ランクリラックス微調整:LoRA DreamBoothモデルのランクをリラックスさせることで、主題の忠実度を向上させるためのランクリラックス微調整技術が提案されました。これにより、ハイパーネットワークからの初期近似値で個人化モデルを初期化し、ランクリラックス微調整を使用して高レベルの主題の詳細を洗練させることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Google DeepMindが、ソーシャルおよび倫理的なAIリスク評価のための人工知能フレームワークを提案」

ジェネラティブAIシステムは、さまざまな形式でコンテンツを作成することで、ますます広まっています。これらのシステムは、...

機械学習

「2024年に探索する必要のある10の最高のGPU」

イントロダクション 人工知能(AI)、機械学習(ML)、深層学習(DL)の時代において、驚異的な計算リソースの需要は最高潮に...

機械学習

「AWS Trainiumを使用した高速で費用効果の高いLLaMA 2の微調整」

大型言語モデル(LLM)は、開発者、科学者、技術者、起業家、および様々な産業の経営者たちの想像力と注意を引いていますこれ...

データサイエンス

「GoとMetalシェーディング言語を通じてAppleのGPUをプログラミングする」

以下では、GoとネイティブCの間でcgoを使用してインターフェースを作成するプロセス、これを使用してAppleのMetal Performanc...

機械学習

組合せ最適化によるニューラルネットワークの剪定

Posted by Hussein Hazimeh、Athenaチームの研究科学者、およびMITの大学院生であるRiade Benbakiによる投稿 近代的なニュー...

機械学習

「グラフ注意ネットワーク論文のイラストとPyTorchによる実装の説明」

グラフニューラルネットワーク(GNN)は、グラフ構造のデータに作用する強力なニューラルネットワークの一種ですノードのロー...