ProFusion における AI 非正則化フレームワーク テキストから画像合成における詳細保存に向けて

ProFusionにおけるAI非正則化フレームワーク:テキストから画像合成の詳細保存への取り組み

テキストから画像生成の領域は長年にわたって広範に研究され、最近では大きな進歩がなされています。研究者たちは、大規模なデータセットで大規模なモデルをトレーニングすることにより、任意のテキスト入力に対するゼロショットのテキストから画像生成を実現するという、驚異的な進展を達成しています。DALL-EやCogViewなどの画期的な作品は、研究者によって提案された多くの手法の道を開き、テキストの説明に合わせて高解像度の画像を生成し、非常に忠実度の高い性能を示す能力を持つものとなりました。これらの大規模なモデルは、テキストから画像生成だけでなく、画像の操作や動画生成など、さまざまな他のアプリケーションにも革命をもたらしました。

前述の大規模なテキストから画像生成モデルは、テキストに合わせた創造的な出力を生成する能力に優れていますが、ユーザーが指定した新しいユニークな概念を生成する際にはしばしば課題に直面します。その結果、研究者たちは、事前にトレーニングされたテキストから画像生成モデルをカスタマイズするさまざまな手法を探求してきました。

たとえば、いくつかの手法では、事前にトレーニングされた生成モデルを限られた数のサンプルを使用して微調整することが含まれます。過学習を防ぐために、異なる正則化技術が使用されます。他の手法では、ユーザーから提供される新しい概念をワード埋め込みにエンコードすることを目指しています。この埋め込みは、最適化プロセスまたはエンコーダネットワークから得ることができます。これらの手法により、ユーザーの入力テキストで指定された追加の要件を満たしながら、新しい概念のカスタマイズ生成が可能となります。

テキストから画像生成の進歩にもかかわらず、最近の研究では、正則化手法を使用する場合のカスタマイズの潜在的な制約に関する懸念が浮上しています。これらの正則化手法がカスタマイズされた生成の能力を意図せず制限する可能性があると疑われています。その結果、細かい詳細が失われる恐れがあります。

この課題を克服するために、ProFusionという新しいフレームワークが提案されました。そのアーキテクチャは以下に示されています。

ProFusionは、PromptNetと呼ばれる事前にトレーニングされたエンコーダと、Fusion Samplingと呼ばれる新しいサンプリング手法から構成されています。従来の手法とは異なり、ProFusionはトレーニングプロセス中に正則化の要件を排除します。代わりに、問題はFusion Sampling手法を使用して推論中に効果的に解決されます。

実際、著者たちは、正則化がテキストによって条件付けられた忠実なコンテンツ作成を可能にする一方で、詳細な情報の喪失をもたらし、劣ったパフォーマンスを引き起こすと主張しています。

Fusion Samplingは、各タイムステップで2つのステージから構成されています。最初のステップでは、フュージョンステージが入力画像の埋め込みと条件付きテキストの情報を組み合わせてノイズのある部分的な結果をエンコードします。その後、リファインメントステージが続き、選択されたハイパーパラメータに基づいて予測を更新します。予測の更新により、Fusion Samplingは入力画像からの細かな情報を保持しながら、出力を入力のプロンプトに基づいて条件付けます。

この手法は、トレーニング時間を節約するだけでなく、正則化手法に関連するハイパーパラメータの調整の必要性もなくします。

以下に報告された結果が示されています。

ProFusionと最先端の手法との比較が示されています。提案された手法は、顔の特徴に関連する細かい詳細を保持し、他のすべての手法よりも優れた性能を発揮しています。

これがProFusionの概要であり、最先端の品質を持つテキストから画像生成のための新しい正則化フリーフレームワークでした。興味があれば、以下のリンクでこの技術について詳しく学ぶことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIの力 なぜウェブ開発者はまだ絶対的な存在なのか

AIは今日の流行語です多くのソフトウェア会社が開発中にそれを使用していますが、みんな同じことを言っていますAIは開発者を...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

AIニュース

マイクロソフトがアメリカの労働組合と手を結び、AI労働力に関する議論に参加します

Microsoftは最近、労働組合アメリカ連邦労働総評議会(AFL-CIO)と包括的な対話を開始するために、人工知能(AI)が労働力に...

データサイエンス

サムスンはAIとビッグデータを採用し、チップ製造プロセスを革新します

世界的なメモリチップメーカーであるSamsung Electronics Co.は、最先端の人工知能(AI)とビッグデータ技術を活用して、チッ...

機械学習

PaLM AI | Googleの自家製生成AI

イントロダクション OpenAIによるGPT(Generative Pre-trained Transformers)モデル、特にChatGPTなどのような生成型AIモデ...

データサイエンス

「機械学習と人工知能を利用した在庫管理の改善」

「人工知能(AI)は在庫管理システムの効果を大幅に向上させることができます需要予測をサポートし、在庫レベルを最適化し、...