このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成
このAI研究による新手法「カンディンスキー1」:COCO-30Kデータセットにおける高いFIDスコアを持つ潜在拡散テキストからの画像生成
“`
近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につながっています。拡散ベースのモデルを含む様々な生成アーキテクチャが、生成される画像の品質と多様性の向上において重要な役割を果たしています。この記事では、33億のパラメータを持つ強力なモデル、Kandinsky1の原理、特徴、能力を探求し、測定可能な画像生成品質の最高レベルのパフォーマンスを強調します。
テキストから画像を生成するモデルは、内容レベルのアーティファクトを持つ自己回帰的なアプローチからDALL-E 2やImagenといった拡散モデルへと進化しました。これらの拡散モデルは、ピクセルレベルと潜在レベルのカテゴリに分類され、信頼性と多様性においてGANを上回る画像生成の能力を持っています。これらのモデルは敵対的なトレーニングなしでテキスト条件を統合し、GLIDEやeDiff-Iなどのモデルによって示されるように、低解像度の画像を生成し、スーパーレゾリューション拡散モデルを使用して拡大します。これらの進展によってテキストから画像を生成する技術は大きく変容しました。
AIRI、Skoltech、およびSber AIの研究者らは、Kandinskyという新しいテキストから画像を生成するモデルを紹介しました。このモデルは、潜在拡散手法と画像事前モデルの組み合わせを特長としています。Kandinskyは、画像オートエンコーダーコンポーネントとして改良されたMoVQの実装を採用し、また、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために画像事前モデルを別途トレーニングします。彼らの手法は、多様な生成モードをサポートし、モデルのソースコードとチェックポイントをリリースするユーザーフレンドリーなデモシステムを提供しています。
- 取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします
- バイトダンスとキング・アブドゥッラー科学技術大学のAI研究者が、静止したポートレート写真の髪の毛を揺らすための新しいフレームワークを発表します
- スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート
Kandinskyは、画像事前モデルと潜在拡散技術を組み合わせたテキストから画像を合成するための潜在拡散アーキテクチャを導入しています。CLIPとXLMRのテキスト埋め込みを使用して、拡散と線形マッピングを組み込んだ画像事前アプローチを採用しています。モデルは、テキストのエンコーディング、埋め込みマッピング(画像事前)、および潜在拡散の3つの主要なステップで構成されます。フルデータセットの統計に基づく視覚埋め込みの要素ごとの正規化は実装されており、拡散プロセスの収束を早めます。
Kandinskyのアーキテクチャは、256×256の解像度でCOCO-30Kバリデーションデータセットにおいて8.03の素晴らしいFIDスコアを達成するなど、テキストから画像を生成する際に強力なパフォーマンスを発揮します。また、線形事前構成は最も優れたFIDスコアを示し、視覚的およびテキストの埋め込み間に潜在的な線形関係が存在する可能性を示しています。彼らのモデルは、一部の猫の画像のサブセットで「猫事前」をトレーニングすることによっても、優れた画像生成能力を発揮します。全体的に、Kandinskyはテキストから画像を生成する最先端モデルと競合しています。
Kandinskyは、拡散ベースのシステムとして、画像生成および処理のタスクにおける最先端のパフォーマーとして浮上しています。彼らの研究は、線形事前が有望であり、視覚的およびテキストの埋め込み間に線形な関係が存在する可能性を示しています。ウェブアプリやTelegramボットなどのユーザーフレンドリーなインターフェースはアクセシビリティを向上させます。今後の研究の方向性としては、高度な画像エンコーダの活用、UNetアーキテクチャの向上、テキストプロンプトの改善、より高解像度の画像の生成、ローカル編集や物理ベースのコントロールなどの機能の探索が挙げられます。研究者らは、望ましくない出力の軽減のためにリアルタイムのモデレーションや頑健な分類器の導入が必要であるとの課題にも言及しています。
“`
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「UCSDとByteDanceの研究者が、アクターズネルフ(ActorsNeRF)を発表:未知の俳優にも対応するアニメータブルな人間アクターネルフモデルで、フューショット設定の環境に汎化する」という意味です
- 「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」
- マンチェスター大学の研究者たちは、MentalLLaMAを導入しましたこれは、読みやすい精神健康分析のためのオープンソースLLMシリーズで、指導に従う能力を持っています
- MITによる新しい機械学習の研究は、大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法を示しています
- 「エアガーディアンと出会ってください:目の追跡技術を使用して、MITの研究者たちが開発した人間のパイロットがどこを見ているかを追跡する人工知能システム」
- UC BerkeleyとUCSFの研究者が神経ビデオ生成を革新します: 高度な空時的ダイナミクスのためのLLM-Groundedビデオ拡散(LVD)の紹介
- 新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法