アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

「Composer」 is a massive (50 billion parameters) controllable diffusion model trained on billions of (text, image) pairs, proposed by Alibaba AI Research Institute.

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取り組みでは、セグメンテーションマップ、シーングラフ、ドローイング、深度マップ、修復マスクなどの条件を追加したり、事前学習モデルを少量の特定のデータに微調整することで、テキストからイメージを生成するモデルをカスタマイズすることができるようになりました。しかし、これらのモデルを実世界のアプリケーションに適用する際には、デザイナーはまだより多くの制御を必要としています。例えば、実世界のデザインプロジェクトでは、意味、形、スタイル、色の同時要求を満たす画像を信頼性を持って生成するために、生成モデルが支援を必要とすることが一般的です。

中国のアリババの研究者たちは、Composerを紹介しています。これは、数十億の(テキスト、画像)のペアでトレーニングされた大規模な(50億のパラメータ)制御可能な拡散モデルです。彼らは、単に条件付けするのではなく、合成性こそが画像形成を制御する秘訣であると主張しています。後者は多くの可能な組み合わせを導入し、制御空間を大幅に拡大することができます。同様の考え方は、言語とシーンの理解の分野でも調査されています。これらの分野では、合成性は合成的な一般化と呼ばれ、限られた数の利用可能なコンポーネントから一意の組み合わせを認識または作成する能力を指します。前述の概念に基づいて、彼らはこの研究で合成的な生成モデルの実装であるComposerを提供しています。彼らは、新しい画像を作成するために視覚要素をスムーズに再構成することができる生成モデルを合成的な生成モデルと呼んでいます。彼らは、Composerを実装するために、UNetバックボーンを持つマルチ条件の拡散モデルを使用しています。各Composerトレーニングイテレーションには2つのフェーズがあります。デコンポジションフェーズでは、コンピュータビジョンアルゴリズムや事前学習モデルを使用して、画像のバッチを個々の表現に分解します。合成フェーズでは、Composerが表現のサブセットから画像を再構成するために最適化されます。

図1:合成的な画像合成のアイデア。画像を基本部品に分解し、創造性と制御を持って再構成する前に、様々な形式でコンポーネントが提供され、生成プロセス全体で条件として機能し、推論ステップ中に広範な修正を可能にします。高解像度で表示するのが最適です。

Composerは、再構成の目的で訓練されただけであっても、複数のソースからの表現の未知の組み合わせから一意の画像をデコードすることができます。Composerは、概念的なシンプルさと使いやすさにもかかわらず、従来の画像生成や操作のタスク、例えばテキストから画像の生成、マルチモーダルな条件付き画像の生成、スタイルの転送、ポーズの転送、画像の翻訳、仮想試着、補完と画像の変動、スケッチの修正による画像の再構成、依存性のある画像の翻訳、画像の翻訳などにおいて、励ましを与えるパフォーマンスを実現しています。

さらに、Composerは上記のすべての操作に対してユーザー指定の領域に編集可能な領域を制限することができます。これは従来の修復操作よりも柔軟であり、マスキングの直交表現を導入することで、この領域外のピクセルの変更を防ぎます。Composerはマルチタスクトレーニングを行ったにもかかわらず、COCOデータセット上でテキストから画像の合成においてゼロショットのFID値9.2を達成し、キャプションを基準とした優れた結果を示しています。彼らの分解-組成のパラダイムは、条件が個別に使用されるのではなく合成可能である場合、生成モデルの制御空間を大幅に拡大することを示しています。そのため、様々な分解技術を使用してより高い制御性を実現できるようにするさまざまな従来の生成タスクを、彼らのComposerアーキテクチャを使用して再設計することができ、これまでに認識されていなかった生成能力が明らかにされ、さまざまな画像生成および変更タスクへのComposerの利用方法について多くのアプローチが示され、後続の研究に役立つ参考資料が提供されています。この研究を公開する前に、彼らはComposerが悪用の危険を軽減し、フィルタリングされたバージョンを提供できるかを注意深く検討する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「CLAMPに会ってください:推論時に新しい実験に適応できる分子活性予測のための新しいAIツール」

数十年にわたり、化学構造に基づいて分子の化学的、巨視的、または生物学的な特性を予測するタスクは、重要な科学的な研究課...

機械学習

「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階の...

AI研究

「医療分野における生成型AI」

はじめに 生成型人工知能は、ここ数年で急速に注目を集めています。医療と生成型人工知能の間に強い関係性が生まれていること...

機械学習

Googleと一緒にジェネレーティブAIを学ぶ

「Googleの10の無料コースでGenerative AIを学びましょう拡散モデル、エンコーダ・デコーダアーキテクチャ、アテンションメカ...

AI研究

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相...

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...