GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

生成型人工知能の分野は、当然の注目を浴びています。テキストから画像へのパーソナライゼーションの最近の進展は、革新的な利用可能性を開拓しています。個別性の概念は、高いアイデンティティの一貫性を保ちながら、様々な文脈とスタイルで独特の人物を生成することを指し、生成型AIにおいて重要なトピックとなっています。顔のパーソナライゼーションは、様々なスタイルで特定の顔や人物の新しい写真を生成する能力を指し、様々なスタイルに強い事前学習済みの拡散モデルを利用することで実現されています。

DreamBoothなどの現在の手法は、新しい主題をモデルに組み込む能力があり、過去の知識を損なうことなく、主題の本質と詳細を広範な方法で維持することに成功しています。しかし、モデルのサイズや学習速度など、多くの制限があります。Stable DiffusionのためのUNetとText Encoderの全ての重みを微調整するDreamBoothは、安定した拡散において1GB以上のサイズになるため、非常に大きいです。また、Stable Diffusionのトレーニング手順には約5分かかるため、広範な採用や実際の応用を妨げる可能性があります。

これらの課題を克服するために、Google Researchの研究チームはHyperDreamBoothを提案しました。HyperDreamBoothは、単一の人物の画像から効率的に個人化された重みの小さなセットを生成するハイパーネットワークです。単一の人物の画像だけで、HyperDreamBoothのハイパーネットワークは効果的に個人化された重みの小さなコレクションを作成します。これらのユニークな重みを持つ拡散モデルと組み合わせ、クイックな微調整を行います。その結果、細かいトピックの詳細と拡散モデルのさまざまな美学と意味の変更に対する基本的な理解を維持しながら、人物の顔をさまざまな状況と美学で生成する強力なシステムが実現します。

HyperDreamBoothの驚異的な速度は、その最大の成果の一つです。DreamBoothよりも25倍速く、Textual Inversionという関連技術と比較しても驚異的な125倍速く、わずか20秒で顔をパーソナライズすることができます。さらに、DreamBoothと同じ品質と美学の変動を保ちながら、このクイックなカスタマイズ手順には参照画像が1つだけ必要です。HyperDreamBoothは、速度に加えて、モデルのサイズでも優れています。結果として得られる個別化モデルは、通常のDreamBoothモデルよりも10,000倍小さくなります。これは、モデルをより管理しやすくし、ストレージの要件を大幅に削減するという重要な利点です。

研究チームは、以下の貢献をまとめています:

  1. 軽量DreamBooth(LiDB):約100KBのカスタムパートを持つパーソナライズされたテキストから画像へのモデルが導入されました。これは、ランダムな直交不完全基底による低次元の重み空間でDreamBoothモデルをトレーニングすることによって実現されています。
  1. 新しいハイパーネットワークアーキテクチャ:LiDBの構成を使用して、ハイパーネットワークはテキストから画像への拡散モデルに特定の主題のためのカスタマイズされた重みを生成します。これにより、強力な方向性の初期化が可能となり、高い主題の忠実度をいくつかの反復で素早く微調整することができます。この手法は、DreamBoothと比較して25倍速いパフォーマンスを提供します。
  1. ランクリラックス微調整:LoRA DreamBoothモデルのランクをリラックスさせることで、主題の忠実度を向上させるためのランクリラックス微調整技術が提案されました。これにより、ハイパーネットワークからの初期近似値で個人化モデルを初期化し、ランクリラックス微調整を使用して高レベルの主題の詳細を洗練させることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Perplexity(パープレキシティ)が2つの新たなオンラインLLMモデルを発表:『pplx-7b-online』と『pplx-70b-online』」

パープレキシティ(Perplexity)は、革新的なAIスタートアップとして、情報検索システムを変革する解決策を発表しました。こ...

機械学習

「SelFeeに会いましょう:自己フィードバック生成によって強化された反復的自己修正LLM」

最近の研究では、自然言語フィードバックが言語モデルの性能向上に効果的であることが示されています。KAISTの研究チームは、...

データサイエンス

線形回帰と勾配降下法

線形回帰は機械学習に存在する基本アルゴリズムの1つですその内部ワークフローを理解することは、データサイエンスの他のアル...

AIニュース

AIバイアス:課題と解決策

人工知能のバイアスはどこから来るのか一度それを見つけたら、どのようにしてそれを減らしたり、排除したりすることができる...

コンピュータサイエンス

「AIイノベーションのためのニューロエボリューションの活用」

イントロダクション ニューロエボリューションは、AIがニューラルネットワークと進化アルゴリズムを組み合わせて創造力を育む...

AIニュース

Amazon Lex、Langchain、およびSageMaker Jumpstartを使用した会話型エクスペリエンスにおける生成AIの探求:イントロダクション

現代の快速な世界では、顧客はビジネスから迅速かつ効率的なサービスを期待していますただし、問い合わせの量が対応する人的...