アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

「Composer」 is a massive (50 billion parameters) controllable diffusion model trained on billions of (text, image) pairs, proposed by Alibaba AI Research Institute.

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取り組みでは、セグメンテーションマップ、シーングラフ、ドローイング、深度マップ、修復マスクなどの条件を追加したり、事前学習モデルを少量の特定のデータに微調整することで、テキストからイメージを生成するモデルをカスタマイズすることができるようになりました。しかし、これらのモデルを実世界のアプリケーションに適用する際には、デザイナーはまだより多くの制御を必要としています。例えば、実世界のデザインプロジェクトでは、意味、形、スタイル、色の同時要求を満たす画像を信頼性を持って生成するために、生成モデルが支援を必要とすることが一般的です。

中国のアリババの研究者たちは、Composerを紹介しています。これは、数十億の(テキスト、画像)のペアでトレーニングされた大規模な(50億のパラメータ)制御可能な拡散モデルです。彼らは、単に条件付けするのではなく、合成性こそが画像形成を制御する秘訣であると主張しています。後者は多くの可能な組み合わせを導入し、制御空間を大幅に拡大することができます。同様の考え方は、言語とシーンの理解の分野でも調査されています。これらの分野では、合成性は合成的な一般化と呼ばれ、限られた数の利用可能なコンポーネントから一意の組み合わせを認識または作成する能力を指します。前述の概念に基づいて、彼らはこの研究で合成的な生成モデルの実装であるComposerを提供しています。彼らは、新しい画像を作成するために視覚要素をスムーズに再構成することができる生成モデルを合成的な生成モデルと呼んでいます。彼らは、Composerを実装するために、UNetバックボーンを持つマルチ条件の拡散モデルを使用しています。各Composerトレーニングイテレーションには2つのフェーズがあります。デコンポジションフェーズでは、コンピュータビジョンアルゴリズムや事前学習モデルを使用して、画像のバッチを個々の表現に分解します。合成フェーズでは、Composerが表現のサブセットから画像を再構成するために最適化されます。

図1:合成的な画像合成のアイデア。画像を基本部品に分解し、創造性と制御を持って再構成する前に、様々な形式でコンポーネントが提供され、生成プロセス全体で条件として機能し、推論ステップ中に広範な修正を可能にします。高解像度で表示するのが最適です。

Composerは、再構成の目的で訓練されただけであっても、複数のソースからの表現の未知の組み合わせから一意の画像をデコードすることができます。Composerは、概念的なシンプルさと使いやすさにもかかわらず、従来の画像生成や操作のタスク、例えばテキストから画像の生成、マルチモーダルな条件付き画像の生成、スタイルの転送、ポーズの転送、画像の翻訳、仮想試着、補完と画像の変動、スケッチの修正による画像の再構成、依存性のある画像の翻訳、画像の翻訳などにおいて、励ましを与えるパフォーマンスを実現しています。

さらに、Composerは上記のすべての操作に対してユーザー指定の領域に編集可能な領域を制限することができます。これは従来の修復操作よりも柔軟であり、マスキングの直交表現を導入することで、この領域外のピクセルの変更を防ぎます。Composerはマルチタスクトレーニングを行ったにもかかわらず、COCOデータセット上でテキストから画像の合成においてゼロショットのFID値9.2を達成し、キャプションを基準とした優れた結果を示しています。彼らの分解-組成のパラダイムは、条件が個別に使用されるのではなく合成可能である場合、生成モデルの制御空間を大幅に拡大することを示しています。そのため、様々な分解技術を使用してより高い制御性を実現できるようにするさまざまな従来の生成タスクを、彼らのComposerアーキテクチャを使用して再設計することができ、これまでに認識されていなかった生成能力が明らかにされ、さまざまな画像生成および変更タスクへのComposerの利用方法について多くのアプローチが示され、後続の研究に役立つ参考資料が提供されています。この研究を公開する前に、彼らはComposerが悪用の危険を軽減し、フィルタリングされたバージョンを提供できるかを注意深く検討する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「FLM-101Bをご紹介します:1010億パラメータを持つ、オープンソースのデコーダのみのLLM」

最近、大規模言語モデル(LLM)はNLPとマルチモーダルタスクで優れた成績を収めていますが、高い計算コストと公正な評価の困...

データサイエンス

「機械学習を使用するかどうか」

機械学習は、通常、特徴量と結果の間の関係が複雑で、ヒューリスティックスやif-elseで簡単にハードコードすることができない...

機械学習

TaatikNet(ターティクネット):ヘブライ語の翻字のためのシーケンス・トゥ・シーケンス学習

この記事では、TaatikNetとseq2seqモデルの簡単な実装方法について説明していますコードとドキュメントについては、TaatikNet...

コンピュータサイエンス

「3DモデリングはAIに基づいています」

人工知能は、3次元グラフィックスにおいて速度と品質の向上を実現することができます

AIニュース

ニューヨーク市がAIに照準を合わせる

「ビッグアップルが人工知能のための行動計画を立てる」

機械学習

時系列のLSTMモデルの5つの実践的な応用とコード

「2022年1月に『時系列のためのLSTMニューラルネットワークモデルの探求』を書いたとき、私の目標は、高度なニューラルネット...