「韓国のAI研究がマギキャプチャを紹介:主題とスタイルの概念を統合して高解像度のポートレート画像を生成するための個人化手法」

Korean AI research introduces MagiCapture a personalized method integrating the concepts of subject and style to generate high-resolution portrait images.

人々はよく、履歴書や結婚式などに適した高品質の肖像写真を作成するために、写真スタジオに通ったり、高価で時間のかかる画像編集手続きに従ったりする必要があります。ただ数枚の自撮り写真や参考写真を使用して、パスポートやプロフィール写真などの特定のスタイルで高品質の肖像写真を手に入れることができる状況を想像してみてください。この論文では、この手続きを自動化します。大規模なテキストから画像へのモデル(Stable DiffusionやImagenなど)の最近の進歩により、高品質でリアルな肖像写真が実現可能になりました。これらのモデルをカスタマイズする現在の研究では、利用可能なトレーニング写真を使用して特定の主題や美学を組み合わせることを目指しています。

この論文では、マルチコンセプトのカスタマイズチャレンジを目指しています。ソース素材と参考スタイルがそれぞれ学習された後、合成された出力が生成されます。テキストによる編集ではなく参考写真を使用することで、細かいアドバイスを提供することができ、この目的により適しています。しかし、以前のパーソナライズ技術の期待される結果にもかかわらず、リアリティを欠いた視覚的なものや商業的に実用的ではないものがしばしば現れます。これは、わずか数枚の写真で大規模なモデルのパラメータを更新しようとする際に一般的に起こります。組み合わせた概念のためのグラウンドトゥルース写真が不足しているマルチコンセプト生成では、異なる概念の人工的な混合や元の概念からの転換がより明白になるため、品質の低下はさらに顕著です。

人間のバイアスによる固有の問題により、肖像写真の制作において人工的なアーティファクトやアイデンティティの変化が明らかになります。この問題が最も顕著なのは、マジカプチャ(KAIST AIとSogang大学の研究者によるマルチコンセプトのカスタマイズアプローチ)がこれらの問題の解決策として提案されています。彼らのアプローチでは、合成プロンプト学習が使用され、合成プロンプトがトレーニングプロセスの一部として含まれ、ソース素材と参考スタイルの密な統合を強化しています。このために、補助損失と偽のラベルが使用されます。彼らはまた、Attention Refocusing損失を提案し、マスク付きの再構築目標と組み合わせることを提案しています。これは、情報の分離と推論中の情報の漏洩を避けるために重要な戦術です。マジカプチャは、定量的および定性的評価において他のベースラインよりも優れたパフォーマンスを発揮し、わずかな調整で他の非人間のオブジェクトにも適用できます。

以下は、彼らの論文の主な貢献です:

• ソースと参考写真の特徴を正確に再現する高解像度の肖像写真を生成することができるマルチコンセプトのパーソナライズ技術を提供します。

• 入力画像から必要な情報を分離し、生成中に情報の漏洩を防ぐためのマスク付き再構築目標を持つ、新しいAttention Refocusing損失を提供します。

• ソース素材と参考スタイルを効果的に統合するために、補助損失と擬似ラベルを使用する構成プロンプト学習戦略を提供します。彼らの方法は、定量的および定性的評価において既存のベースライン手法を上回り、わずかな修正で非人間の物体の写真を作成するためにも適用できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「CutLER(Cut-and-LEaRn):人間の注釈なしで物体検出とインスタンスセグメンテーションモデルをトレーニングするためのシンプルなAIアプローチによる出会い」

オブジェクト検出と画像セグメンテーションは、コンピュータビジョンと人工知能の重要なタスクです。これらは、自動車、医療...

AIテクノロジー

AIの台頭が犬食い犬のテック産業を牽引している

「テクノロジー業界が根本的な変革を遂げていることについては、私と同意していただけると思いますあなたもそれを見ることが...

データサイエンス

最適なテクノロジー/ベンダーを選ぶための体系的なアプローチ:MLOpsバージョン

機械学習は私たちの生活のあらゆる側面に欠かせない存在となっています以前、私は技術/ベンダーの選択について体系的なアプロ...

AI研究

「SMARTは、AI、自動化、そして働き方の未来を進めるための研究グループを立ち上げました」

「Mens, Manus and Machina (M3S)は、人間と機械の成功した協働のために、技術、トレーニングプログラム、および制度を設計し...

データサイエンス

「カスタムPyTorchオペレーターを使用してDLデータ入力パイプラインを最適化する方法」

この投稿は、GPUベースのPyTorchワークロードのパフォーマンス分析と最適化に関する一連の投稿の5番目であり、直接的な続編で...

AI研究

イリノイ大学の研究者は、コードのための完全なオープンソース大規模言語モデル(LLM)のシリーズであるマジコーダを紹介しました

イリノイ大学アーバナ・シャンペーン校と清華大学の研究者チームは、オープンソースのコードスニペットからの低バイアスと高...