「TR0Nに会ってください:事前学習済み生成モデルに任意のコンディショニングを追加するためのシンプルで効率的な方法」

TR0N A Simple and Efficient Method for Adding Arbitrary Conditioning to Pre-trained Generative Models

最近、大規模な機械学習モデルが様々なタスクで優れた成績を収めています。しかし、このようなモデルのトレーニングには多くのコンピュータのパワーが必要です。そのため、現在の大規模な事前学習モデルを適切かつ効果的に活用することが重要です。しかし、複数のモデルの能力をプラグアンドプレイで統合するという課題はまだ解決されていません。このタスクを行うためのメカニズムは、モジュール化されていてモデルに中立的なものであることが好ましいです。これにより、簡単にモデルの部品を切り替えることができます(例えば、CLIPをVAEを使った新しい最先端のテキスト/画像モデルに置き換える)。

この研究では、Layer 6 AI、トロント大学、およびベクトル研究所の研究者が以前にトレーニングされたモデルを混合して条件付き生成を調査しています。条件付き生成モデルは、条件付きデータ分布を学習することを目指します。通常、これらは、クラスラベルと対応する写真xや言語モデルcを介して供給されるテキストプロンプトなど、一致するcを持つデータのペアリングでゼロからトレーニングされます。彼らは、事前学習された無条件のプッシュフォワード生成モデルを、事前分布p(z)からサンプリングされた潜在変数zをデータサンプルx = G(z)に変換するモデルGを使用して条件付きモデルに変更したいと考えています。これを行うために、彼らはTR0Nを提供します。これは、事前学習された無条件の生成モデルを条件付きにトレーニングするための幅広いフレームワークです。

TR0Nは、トレーニング済みの補助モデルf(分類器またはCLIPエンコーダ)へのアクセスを前提としています。また、関数E(z, c)にもアクセスすることを期待しています。この関数は、潜在変数zに対してG(z)が条件cを「よりよく満たす」値を割り当てます。TR0Nは、与えられたcに対してzに関するE(z, c)の勾配をTステップで最小化し、必要な条件付きデータサンプルを提供するlatentsを特定するために、この関数の勾配を最小化します。しかし、彼らは最初にEを単純に最適化することがより良い結果をもたらすことを示しています。このため、TR0Nは最適化プロセスをより効果的に最適化するために使用するネットワークの研究を開始します。

条件cからE(z, c)が最小となるような一致する潜在変数zへ「変換」するため、このネットワークは翻訳ネットワークとして知られています。翻訳ネットワークはGを調整せずに事前に作成されたデータセットを使用しないでトレーニングされます。TR0Nはゼロショットアプローチであり、訓練可能な部分は軽量な翻訳ネットワークのみです。TR0Nは、Gやfのいずれのコンポーネントも容易にアップグレードできるため、最新の最先端バージョンが利用可能になった場合にも非常に高価な条件付きモデルのトレーニングを回避できます。

図1

図1の左パネルでは、翻訳ネットワークのトレーニング方法について説明しています。翻訳ネットワークのトレーニングが完了した後、Eの最適化がその出力を使用して開始されます。単純な初期化に比べて、これによりアモルティゼーションギャップによる性能の低下を回復し、より良い局所最適解とより速い収束を実現します。TR0Nは、効果的な初期化戦略を使用してLangevinダイナミクスでサンプリングすると解釈することも可能です。翻訳ネットワークは条件付き分布q(z|c)であり、E(z, c)が小さいような潜在変数zに高い密度を割り当てます。また、Eの勾配最適化中にノイズも追加します。図1の右パネルでは、TR0Nでのサンプリング方法を示しています。

彼らは以下の3つの貢献を行っています:(i)翻訳ネットワークとそれらの特に効果的なパラメータ化の導入により、Langevinダイナミクスの異なる初期化方法が可能になります。(ii)TR0Nを非常に一般的なフレームワークとして位置付け、以前の関連研究は主に特定のGとfの選択肢に焦点を当てていました。(iii)TR0Nが画像品質と計算可能性のタスク全体で競合する代替手法を実証し、多様なサンプルを生成します。デモはHuggingFaceで利用可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

メリーランド大学の新しいAI研究は、1日で単一のGPU上で言語モデルのトレーニングをするためのクラミングの課題を調査しています

自然言語処理の多くの領域では、言語解釈や自然言語合成を含む機械学習モデルの大規模トレーニングにおいて、トランスフォー...

機械学習

「P+にお会いしましょう:テキストから画像生成における拡張テキスト反転のための豊かな埋め込み空間」

テキストから画像の合成は、テキストのプロンプト記述から現実的な画像を生成するプロセスを指します。この技術は、人工知能...

機械学習

このAI論文は、拡散モデル内のコンセプトニューロンを分析および識別するための、コーンと呼ばれる新しい勾配ベースの手法を提案しています

複雑な脳の構造により、驚くべき認知的および創造的なタスクを実行することができます。研究によると、人間の内側の側頭葉に...

機械学習

「機械学習モデルからの情報漏洩を分析し、制約するための新しいAIの理論的枠組み」

機械学習アルゴリズムは、複雑で敏感な問題に適用されることから、プライバシーとセキュリティの懸念を引き起こしています。...

人工知能

すべての開発者が知るべき6つの生成AIフレームワークとツール

この記事では、トップのジェネラティブAIフレームワークとツールについて探求しますあなたの想像力を解き放ち、ジェネラティ...

人工知能

「Cassandra To-Doリスト ChatGPTプラグインの構築」

「Cassandraのステップバイステップガイド:ChatGPTプラグインを実装して、自分のやるべきことリストを管理するための仮想パ...