このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成

このAI研究による新手法「カンディンスキー1」:COCO-30Kデータセットにおける高いFIDスコアを持つ潜在拡散テキストからの画像生成

“`

近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につながっています。拡散ベースのモデルを含む様々な生成アーキテクチャが、生成される画像の品質と多様性の向上において重要な役割を果たしています。この記事では、33億のパラメータを持つ強力なモデル、Kandinsky1の原理、特徴、能力を探求し、測定可能な画像生成品質の最高レベルのパフォーマンスを強調します。

テキストから画像を生成するモデルは、内容レベルのアーティファクトを持つ自己回帰的なアプローチからDALL-E 2やImagenといった拡散モデルへと進化しました。これらの拡散モデルは、ピクセルレベルと潜在レベルのカテゴリに分類され、信頼性と多様性においてGANを上回る画像生成の能力を持っています。これらのモデルは敵対的なトレーニングなしでテキスト条件を統合し、GLIDEやeDiff-Iなどのモデルによって示されるように、低解像度の画像を生成し、スーパーレゾリューション拡散モデルを使用して拡大します。これらの進展によってテキストから画像を生成する技術は大きく変容しました。

AIRI、Skoltech、およびSber AIの研究者らは、Kandinskyという新しいテキストから画像を生成するモデルを紹介しました。このモデルは、潜在拡散手法と画像事前モデルの組み合わせを特長としています。Kandinskyは、画像オートエンコーダーコンポーネントとして改良されたMoVQの実装を採用し、また、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために画像事前モデルを別途トレーニングします。彼らの手法は、多様な生成モードをサポートし、モデルのソースコードとチェックポイントをリリースするユーザーフレンドリーなデモシステムを提供しています。

Kandinskyは、画像事前モデルと潜在拡散技術を組み合わせたテキストから画像を合成するための潜在拡散アーキテクチャを導入しています。CLIPとXLMRのテキスト埋め込みを使用して、拡散と線形マッピングを組み込んだ画像事前アプローチを採用しています。モデルは、テキストのエンコーディング、埋め込みマッピング(画像事前)、および潜在拡散の3つの主要なステップで構成されます。フルデータセットの統計に基づく視覚埋め込みの要素ごとの正規化は実装されており、拡散プロセスの収束を早めます。

Kandinskyのアーキテクチャは、256×256の解像度でCOCO-30Kバリデーションデータセットにおいて8.03の素晴らしいFIDスコアを達成するなど、テキストから画像を生成する際に強力なパフォーマンスを発揮します。また、線形事前構成は最も優れたFIDスコアを示し、視覚的およびテキストの埋め込み間に潜在的な線形関係が存在する可能性を示しています。彼らのモデルは、一部の猫の画像のサブセットで「猫事前」をトレーニングすることによっても、優れた画像生成能力を発揮します。全体的に、Kandinskyはテキストから画像を生成する最先端モデルと競合しています。

Kandinskyは、拡散ベースのシステムとして、画像生成および処理のタスクにおける最先端のパフォーマーとして浮上しています。彼らの研究は、線形事前が有望であり、視覚的およびテキストの埋め込み間に線形な関係が存在する可能性を示しています。ウェブアプリやTelegramボットなどのユーザーフレンドリーなインターフェースはアクセシビリティを向上させます。今後の研究の方向性としては、高度な画像エンコーダの活用、UNetアーキテクチャの向上、テキストプロンプトの改善、より高解像度の画像の生成、ローカル編集や物理ベースのコントロールなどの機能の探索が挙げられます。研究者らは、望ましくない出力の軽減のためにリアルタイムのモデレーションや頑健な分類器の導入が必要であるとの課題にも言及しています。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

ヒッティングタイム予測:時系列確率予測の別の方法

正確な予測をする能力は、すべての時系列予測アプリケーションにとって基本的なものですこの目的に従って、データサイエンテ...

機械学習

オペレーションの頭脳:人工知能とデジタルツインで手術の未来を地図化するアトラスメディテック

アスリートが試合のためにトレーニングし、俳優が公演のためにリハーサルするように、外科医も手術の前に準備をします。 今、...

AI研究

マイクロソフトの研究者が提案するNUWA-XL:極長ビデオ生成のための新しい拡散オーバー拡散アーキテクチャ

生成モデルの分野では、最近、視覚合成への関心が高まっています。以前の研究では、高品質の画像生成が可能でした。しかし、...

機械学習

「トランスフォーマーとサポートベクターマシンの関係は何ですか? トランスフォーマーアーキテクチャにおける暗黙のバイアスと最適化ジオメトリを明らかにする」

自己注意機構により、自然言語処理(NLP)は革新を遂げました。自己注意機構は、入力シーケンス内の複雑な関連を認識するため...

人工知能

「スーパーアラインメントとは何か?なぜそれが重要なのか?」

「超知能システムに関連する潜在的なリスクへの対処」

機械学習

マシンラーニングにとっての「最悪のシナリオを防ぐ競争」

A.I.企業は、児童性的虐待物資の作成や流通を阻止する面で優位に立っています彼らは、ソーシャルメディア企業が失敗したこと...