アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

「Composer」 is a massive (50 billion parameters) controllable diffusion model trained on billions of (text, image) pairs, proposed by Alibaba AI Research Institute.

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取り組みでは、セグメンテーションマップ、シーングラフ、ドローイング、深度マップ、修復マスクなどの条件を追加したり、事前学習モデルを少量の特定のデータに微調整することで、テキストからイメージを生成するモデルをカスタマイズすることができるようになりました。しかし、これらのモデルを実世界のアプリケーションに適用する際には、デザイナーはまだより多くの制御を必要としています。例えば、実世界のデザインプロジェクトでは、意味、形、スタイル、色の同時要求を満たす画像を信頼性を持って生成するために、生成モデルが支援を必要とすることが一般的です。

中国のアリババの研究者たちは、Composerを紹介しています。これは、数十億の(テキスト、画像)のペアでトレーニングされた大規模な(50億のパラメータ)制御可能な拡散モデルです。彼らは、単に条件付けするのではなく、合成性こそが画像形成を制御する秘訣であると主張しています。後者は多くの可能な組み合わせを導入し、制御空間を大幅に拡大することができます。同様の考え方は、言語とシーンの理解の分野でも調査されています。これらの分野では、合成性は合成的な一般化と呼ばれ、限られた数の利用可能なコンポーネントから一意の組み合わせを認識または作成する能力を指します。前述の概念に基づいて、彼らはこの研究で合成的な生成モデルの実装であるComposerを提供しています。彼らは、新しい画像を作成するために視覚要素をスムーズに再構成することができる生成モデルを合成的な生成モデルと呼んでいます。彼らは、Composerを実装するために、UNetバックボーンを持つマルチ条件の拡散モデルを使用しています。各Composerトレーニングイテレーションには2つのフェーズがあります。デコンポジションフェーズでは、コンピュータビジョンアルゴリズムや事前学習モデルを使用して、画像のバッチを個々の表現に分解します。合成フェーズでは、Composerが表現のサブセットから画像を再構成するために最適化されます。

図1:合成的な画像合成のアイデア。画像を基本部品に分解し、創造性と制御を持って再構成する前に、様々な形式でコンポーネントが提供され、生成プロセス全体で条件として機能し、推論ステップ中に広範な修正を可能にします。高解像度で表示するのが最適です。

Composerは、再構成の目的で訓練されただけであっても、複数のソースからの表現の未知の組み合わせから一意の画像をデコードすることができます。Composerは、概念的なシンプルさと使いやすさにもかかわらず、従来の画像生成や操作のタスク、例えばテキストから画像の生成、マルチモーダルな条件付き画像の生成、スタイルの転送、ポーズの転送、画像の翻訳、仮想試着、補完と画像の変動、スケッチの修正による画像の再構成、依存性のある画像の翻訳、画像の翻訳などにおいて、励ましを与えるパフォーマンスを実現しています。

さらに、Composerは上記のすべての操作に対してユーザー指定の領域に編集可能な領域を制限することができます。これは従来の修復操作よりも柔軟であり、マスキングの直交表現を導入することで、この領域外のピクセルの変更を防ぎます。Composerはマルチタスクトレーニングを行ったにもかかわらず、COCOデータセット上でテキストから画像の合成においてゼロショットのFID値9.2を達成し、キャプションを基準とした優れた結果を示しています。彼らの分解-組成のパラダイムは、条件が個別に使用されるのではなく合成可能である場合、生成モデルの制御空間を大幅に拡大することを示しています。そのため、様々な分解技術を使用してより高い制御性を実現できるようにするさまざまな従来の生成タスクを、彼らのComposerアーキテクチャを使用して再設計することができ、これまでに認識されていなかった生成能力が明らかにされ、さまざまな画像生成および変更タスクへのComposerの利用方法について多くのアプローチが示され、後続の研究に役立つ参考資料が提供されています。この研究を公開する前に、彼らはComposerが悪用の危険を軽減し、フィルタリングされたバージョンを提供できるかを注意深く検討する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「受賞者たちは創造的AIのハイプを超えて見据える」

今年のハイデルベルク理論賞フォーラムに参加する人々は、技術の将来の応用に期待しています

データサイエンス

GPTを使用した、OpenAIのパーソナルAIアプリのノーコードビルダー

データ分析、ビジュアルタスクなどのためにカスタムChatGPTを作成する方法を学びましょうOpenAIのノーコードGPTを使って、あ...

機械学習

「AWSは、人工知能、機械学習、生成AIのガイドを提供しており、AI戦略を計画するための新しい情報を提供しています」

人工知能(AI)と機械学習(ML)のブレークスルーは、数ヶ月間の間、見出しを賑わせてきました - そしてその理由は十分にある...

機械学習

ウェイモのMotionLMを紹介します:最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル(LLM)が自動車の運転をサポートできるようにする可能性のあるものです

オートリグレッション言語モデルは、あらかじめ定義された文法や構文解析の概念を必要とせずに、文章内の次のサブワードを予...

AIニュース

NVIDIA Studio LineupにRTX搭載のMicrosoft Surface Laptop Studio 2が追加されました

編集者の注:この投稿は、私たちの週刊NVIDIA Studioシリーズの一部であり、注目のアーティストを称え、クリエイティブなヒン...

データサイエンス

「DeepMindによるこのAI研究は、シンプルな合成データを使用して、大規模な言語モデル(LLM)におけるおべっか使用を減らすことを目指しています」

大規模言語モデル(LLMs)は近年大きく進化し、推論を必要とする難しいタスクを処理することができるようになりました。OpenA...