GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

生成型人工知能の分野は、当然の注目を浴びています。テキストから画像へのパーソナライゼーションの最近の進展は、革新的な利用可能性を開拓しています。個別性の概念は、高いアイデンティティの一貫性を保ちながら、様々な文脈とスタイルで独特の人物を生成することを指し、生成型AIにおいて重要なトピックとなっています。顔のパーソナライゼーションは、様々なスタイルで特定の顔や人物の新しい写真を生成する能力を指し、様々なスタイルに強い事前学習済みの拡散モデルを利用することで実現されています。

DreamBoothなどの現在の手法は、新しい主題をモデルに組み込む能力があり、過去の知識を損なうことなく、主題の本質と詳細を広範な方法で維持することに成功しています。しかし、モデルのサイズや学習速度など、多くの制限があります。Stable DiffusionのためのUNetとText Encoderの全ての重みを微調整するDreamBoothは、安定した拡散において1GB以上のサイズになるため、非常に大きいです。また、Stable Diffusionのトレーニング手順には約5分かかるため、広範な採用や実際の応用を妨げる可能性があります。

これらの課題を克服するために、Google Researchの研究チームはHyperDreamBoothを提案しました。HyperDreamBoothは、単一の人物の画像から効率的に個人化された重みの小さなセットを生成するハイパーネットワークです。単一の人物の画像だけで、HyperDreamBoothのハイパーネットワークは効果的に個人化された重みの小さなコレクションを作成します。これらのユニークな重みを持つ拡散モデルと組み合わせ、クイックな微調整を行います。その結果、細かいトピックの詳細と拡散モデルのさまざまな美学と意味の変更に対する基本的な理解を維持しながら、人物の顔をさまざまな状況と美学で生成する強力なシステムが実現します。

HyperDreamBoothの驚異的な速度は、その最大の成果の一つです。DreamBoothよりも25倍速く、Textual Inversionという関連技術と比較しても驚異的な125倍速く、わずか20秒で顔をパーソナライズすることができます。さらに、DreamBoothと同じ品質と美学の変動を保ちながら、このクイックなカスタマイズ手順には参照画像が1つだけ必要です。HyperDreamBoothは、速度に加えて、モデルのサイズでも優れています。結果として得られる個別化モデルは、通常のDreamBoothモデルよりも10,000倍小さくなります。これは、モデルをより管理しやすくし、ストレージの要件を大幅に削減するという重要な利点です。

研究チームは、以下の貢献をまとめています:

  1. 軽量DreamBooth(LiDB):約100KBのカスタムパートを持つパーソナライズされたテキストから画像へのモデルが導入されました。これは、ランダムな直交不完全基底による低次元の重み空間でDreamBoothモデルをトレーニングすることによって実現されています。
  1. 新しいハイパーネットワークアーキテクチャ:LiDBの構成を使用して、ハイパーネットワークはテキストから画像への拡散モデルに特定の主題のためのカスタマイズされた重みを生成します。これにより、強力な方向性の初期化が可能となり、高い主題の忠実度をいくつかの反復で素早く微調整することができます。この手法は、DreamBoothと比較して25倍速いパフォーマンスを提供します。
  1. ランクリラックス微調整:LoRA DreamBoothモデルのランクをリラックスさせることで、主題の忠実度を向上させるためのランクリラックス微調整技術が提案されました。これにより、ハイパーネットワークからの初期近似値で個人化モデルを初期化し、ランクリラックス微調整を使用して高レベルの主題の詳細を洗練させることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「事実かフィクションかを超えて:GPT-4の高度な事実チェック能力の評価」

チューリッヒ大学の研究者たちは、GPT-4などの大規模言語モデル(LLM)が自律的なファクトチェックにおいてどのような役割を...

AI研究

MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直...

AIニュース

「デベロッパー用の15以上のAIツール(2023年12月)」

“`html GitHub Copilot GitHub Copilotは、市場をリードするAIによるコーディングアシスタントです。開発者が効率的に...

AI研究

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手...

人工知能

ミストラルAIは、パワフルなスパースな専門家の

人工知能の進展に向けて、革新的なオープンモデルを提供するパイオニアであるMistral AIが、Mixtral 8x7Bを発表しました。こ...

人工知能

2023年の最高のAIテキスト生成ツール

ChatGPTのリリース以来、AIテキスト生成器は頻繁にニュースになっています。適切に訓練されたツールをプロンプトすると、AIテ...