このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成

このAI研究による新手法「カンディンスキー1」:COCO-30Kデータセットにおける高いFIDスコアを持つ潜在拡散テキストからの画像生成

“`

近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につながっています。拡散ベースのモデルを含む様々な生成アーキテクチャが、生成される画像の品質と多様性の向上において重要な役割を果たしています。この記事では、33億のパラメータを持つ強力なモデル、Kandinsky1の原理、特徴、能力を探求し、測定可能な画像生成品質の最高レベルのパフォーマンスを強調します。

テキストから画像を生成するモデルは、内容レベルのアーティファクトを持つ自己回帰的なアプローチからDALL-E 2やImagenといった拡散モデルへと進化しました。これらの拡散モデルは、ピクセルレベルと潜在レベルのカテゴリに分類され、信頼性と多様性においてGANを上回る画像生成の能力を持っています。これらのモデルは敵対的なトレーニングなしでテキスト条件を統合し、GLIDEやeDiff-Iなどのモデルによって示されるように、低解像度の画像を生成し、スーパーレゾリューション拡散モデルを使用して拡大します。これらの進展によってテキストから画像を生成する技術は大きく変容しました。

AIRI、Skoltech、およびSber AIの研究者らは、Kandinskyという新しいテキストから画像を生成するモデルを紹介しました。このモデルは、潜在拡散手法と画像事前モデルの組み合わせを特長としています。Kandinskyは、画像オートエンコーダーコンポーネントとして改良されたMoVQの実装を採用し、また、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために画像事前モデルを別途トレーニングします。彼らの手法は、多様な生成モードをサポートし、モデルのソースコードとチェックポイントをリリースするユーザーフレンドリーなデモシステムを提供しています。

Kandinskyは、画像事前モデルと潜在拡散技術を組み合わせたテキストから画像を合成するための潜在拡散アーキテクチャを導入しています。CLIPとXLMRのテキスト埋め込みを使用して、拡散と線形マッピングを組み込んだ画像事前アプローチを採用しています。モデルは、テキストのエンコーディング、埋め込みマッピング(画像事前)、および潜在拡散の3つの主要なステップで構成されます。フルデータセットの統計に基づく視覚埋め込みの要素ごとの正規化は実装されており、拡散プロセスの収束を早めます。

Kandinskyのアーキテクチャは、256×256の解像度でCOCO-30Kバリデーションデータセットにおいて8.03の素晴らしいFIDスコアを達成するなど、テキストから画像を生成する際に強力なパフォーマンスを発揮します。また、線形事前構成は最も優れたFIDスコアを示し、視覚的およびテキストの埋め込み間に潜在的な線形関係が存在する可能性を示しています。彼らのモデルは、一部の猫の画像のサブセットで「猫事前」をトレーニングすることによっても、優れた画像生成能力を発揮します。全体的に、Kandinskyはテキストから画像を生成する最先端モデルと競合しています。

Kandinskyは、拡散ベースのシステムとして、画像生成および処理のタスクにおける最先端のパフォーマーとして浮上しています。彼らの研究は、線形事前が有望であり、視覚的およびテキストの埋め込み間に線形な関係が存在する可能性を示しています。ウェブアプリやTelegramボットなどのユーザーフレンドリーなインターフェースはアクセシビリティを向上させます。今後の研究の方向性としては、高度な画像エンコーダの活用、UNetアーキテクチャの向上、テキストプロンプトの改善、より高解像度の画像の生成、ローカル編集や物理ベースのコントロールなどの機能の探索が挙げられます。研究者らは、望ましくない出力の軽減のためにリアルタイムのモデレーションや頑健な分類器の導入が必要であるとの課題にも言及しています。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「生成AIツールが自己学習のためのテキストを急速に使い尽くしている」

「OpenAIや他のAI開発者のデータ収集プラクティスに関する最新の懸念が提起されています」

機械学習

マシンラーニングのロードマップ:コミュニティの推奨事項2023

前回の記事で、このロードマップの第1部では、機械学習のための出発点と方向性について簡単に説明しました初心者が堅固な基盤...

機械学習

「低コスト四足ロボットはパルクールをマスターできるのか? アジャイルなロボット運動のための革命的な学習システムを公開する」

複雑な物理的タスク、例えば困難な環境でのナビゲーションなどをロボットに実行させるという課題は、ロボティクスにおいて長...

AIニュース

「ドバイ、ロボタクシーの試験を開始する予定」

「アラブ首長国連邦の都市ドバイは、混雑や事故を減らすため、今月初めてのロボットタクシーの導入を開始します」

データサイエンス

GOAT-7B-Communityモデルをご紹介します:GoatChatアプリから収集されたデータセットでLLaMA-2 7Bモデルを微調整したAIモデルです

最近、AI研究所の科学者たちは、GoatChatアプリのデータを使用して、LLaMA-2 7Bモデルを洗練させたGOAT-7B-Communityモデルを...