このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成

このAI研究による新手法「カンディンスキー1」:COCO-30Kデータセットにおける高いFIDスコアを持つ潜在拡散テキストからの画像生成

“`

近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につながっています。拡散ベースのモデルを含む様々な生成アーキテクチャが、生成される画像の品質と多様性の向上において重要な役割を果たしています。この記事では、33億のパラメータを持つ強力なモデル、Kandinsky1の原理、特徴、能力を探求し、測定可能な画像生成品質の最高レベルのパフォーマンスを強調します。

テキストから画像を生成するモデルは、内容レベルのアーティファクトを持つ自己回帰的なアプローチからDALL-E 2やImagenといった拡散モデルへと進化しました。これらの拡散モデルは、ピクセルレベルと潜在レベルのカテゴリに分類され、信頼性と多様性においてGANを上回る画像生成の能力を持っています。これらのモデルは敵対的なトレーニングなしでテキスト条件を統合し、GLIDEやeDiff-Iなどのモデルによって示されるように、低解像度の画像を生成し、スーパーレゾリューション拡散モデルを使用して拡大します。これらの進展によってテキストから画像を生成する技術は大きく変容しました。

AIRI、Skoltech、およびSber AIの研究者らは、Kandinskyという新しいテキストから画像を生成するモデルを紹介しました。このモデルは、潜在拡散手法と画像事前モデルの組み合わせを特長としています。Kandinskyは、画像オートエンコーダーコンポーネントとして改良されたMoVQの実装を採用し、また、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために画像事前モデルを別途トレーニングします。彼らの手法は、多様な生成モードをサポートし、モデルのソースコードとチェックポイントをリリースするユーザーフレンドリーなデモシステムを提供しています。

Kandinskyは、画像事前モデルと潜在拡散技術を組み合わせたテキストから画像を合成するための潜在拡散アーキテクチャを導入しています。CLIPとXLMRのテキスト埋め込みを使用して、拡散と線形マッピングを組み込んだ画像事前アプローチを採用しています。モデルは、テキストのエンコーディング、埋め込みマッピング(画像事前)、および潜在拡散の3つの主要なステップで構成されます。フルデータセットの統計に基づく視覚埋め込みの要素ごとの正規化は実装されており、拡散プロセスの収束を早めます。

Kandinskyのアーキテクチャは、256×256の解像度でCOCO-30Kバリデーションデータセットにおいて8.03の素晴らしいFIDスコアを達成するなど、テキストから画像を生成する際に強力なパフォーマンスを発揮します。また、線形事前構成は最も優れたFIDスコアを示し、視覚的およびテキストの埋め込み間に潜在的な線形関係が存在する可能性を示しています。彼らのモデルは、一部の猫の画像のサブセットで「猫事前」をトレーニングすることによっても、優れた画像生成能力を発揮します。全体的に、Kandinskyはテキストから画像を生成する最先端モデルと競合しています。

Kandinskyは、拡散ベースのシステムとして、画像生成および処理のタスクにおける最先端のパフォーマーとして浮上しています。彼らの研究は、線形事前が有望であり、視覚的およびテキストの埋め込み間に線形な関係が存在する可能性を示しています。ウェブアプリやTelegramボットなどのユーザーフレンドリーなインターフェースはアクセシビリティを向上させます。今後の研究の方向性としては、高度な画像エンコーダの活用、UNetアーキテクチャの向上、テキストプロンプトの改善、より高解像度の画像の生成、ローカル編集や物理ベースのコントロールなどの機能の探索が挙げられます。研究者らは、望ましくない出力の軽減のためにリアルタイムのモデレーションや頑健な分類器の導入が必要であるとの課題にも言及しています。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、「GREAT PLEA」倫理的フレームワークを提案しています:医療における責任あるAIのための軍事に焦点を当てたアプローチ

ピッツバーグ大学、ウェル・コーネル・メディシン、テレメディシン&先進テクノロジー研究センター、統合失調症(USU)、ブル...

データサイエンス

「大規模言語モデル:現実世界のCXアプリケーションの包括的な分析」

大規模言語モデルを使用して、次世代の顧客体験を実現しよう:文脈に基づく応答、感情分析、パーソナライズされた推奨などを...

機械学習

セールスフォースAIがGlueGenを導入:効率的なエンコーダのアップグレードとマルチモーダル機能により、テキストから画像へのモデルが革新的になります

テキストから画像への変換(T2I)モデルの急速に進化する風景の中で、GlueGenの導入により新たなフロンティアが現れています...

機械学習

「リリに会ってください:マッキンゼーの内部生成AIツール、洞察力を解き放ち、コンサルティングの効率を向上させる」

効率的かつ効果的な知識伝達の追求は、コンサルティングの世界で長年続いてきた課題です。コンサルティング業界の先駆者であ...

データサイエンス

「クラスの不均衡とオーバーサンプリング:形式的な紹介」

最近、私はJuliaでクラスの不均衡を解決するためのパッケージ、Imbalance.jlを作成しています論文を読んだり実装を見たりする...

機械学習

「AppleがオープンソースのMLフレームワーク「MLX」を発表」

機械学習の分野における協力とイノベーションを促進する重要な進展として、AppleはMLXを発表しました。MLXは、Appleの優れた...