Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス

Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)のAIにおける先駆的な実数値ベクトルシークエンスを発表

トランスフォーマーは最初に導入され、自然言語処理の主要なアーキテクチャとして急速に台頭しました。最近では、コンピュータビジョンでも非常に人気があります。Dosovitskiyらは、画像をパッチのシーケンスに分割し、それらのパッチを線形に埋め込み、その結果得られる特徴のシーケンスをトランスフォーマーエンコーダに供給することで、CNNベースのアーキテクチャに勝る効果的な画像分類器を作成する方法を示しました。セグメンテーション、検出、および分類などの多くの区別的なビジョンタスクにおいて、このアプローチは現在の標準です。ただし、生成トランスフォーマーデコーダはある事前定義された有限のボキャブラリーから離散的なトークンを消費して予測するため、画像を(非量子化された)特徴ベクトルのシーケンスにマッピングすることは、トランスフォーマーベースの画像生成には適切ではありません。

このような構造は自然言語に自然に適合し、デコーダーモデル単体では、効果的なトレーニングがインストラクターフォースと強力な連続生成モデリングを介して可能です。最近の取り組みでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)を使用して画像を離散トークンのシーケンスにマッピングし、その後、トランスフォーマーデコーダを使用して潜在的な離散トークンの分布をモデル化するための手法を採用しています。このアプローチは、画像を利用した多走的生成モデルも容易にします。しかし、2段階のメソッドは画像とマルチモーダルコンテンツの作成には適していますが、いくつかの問題があります。

VQ-VAE内のボキャブラリーサイズによって、潜在的なモデリングや画像の細部調整の調整が困難になるため、潜在的なコードの情報量が減少します。また、トークンを使用して密度予測や低レベルの区別的なタスクにトークンを使用するアプリケーションの品質にも影響を与えます。ボキャブラリーサイズの拡大はこの問題の解決に役立ちますが、それによってボキャブラリーの使用が不十分になる場合があります。したがって、高品質なVQ-VAEセットアップでは、エントロピー損失やコードブックの分割などの洗練された方法に頼る必要があります。さらに、巨大なボキャブラリーは記憶容量を多く消費する埋め込み行列をもたらし、異なるモダリティのボキャブラリーが混在するマルチモーダルシナリオでは、問題が発生する可能性があります。研究チームは、これらの問題を回避するために、デコーダーモデルを変更して、離散的なトークンと、したがって、固定された有限のボキャブラリーを必要としない連続した実数値のベクトルシーケンスで動作する生成トランスフォーマーデコーダを提案しています。

特に、Google DeepMindとGoogle Researchの研究チームは、実数値のベクトルシーケンスを用いて機能する生成型無限ボキャブラリートランスフォーマー(GIVT)を提案しています。実数値のベクトルは無限ボキャブラリーと見なすことができるため、研究チームはこれをGIVTと呼んでいます。図1に示されているように、研究チームはトランスフォーマーデコーダの設計をわずかに変更しました(合計2つの変更)。1)入力では、研究チームは離散的なトークンの代わりに連続した実数値のベクトルシーケンスを線形に埋め込む。2)出力では、研究チームは有限のボキャブラリー上のカテゴリカル分布のパラメータを予測するのではなく、連続した実数値のベクトル上の連続した分布のパラメータを予測します。研究チームは、教師強制と因果関係注意マスクを使用してこのモデルをトレーニングしました。また、研究チームはMaskGITに類似した高速進行マスクバイダイレクショナルモデリングも調査しました。

図1は、連続した無限ボキャブラリーのバリエーション(右側のGIVT)を典型的な離散トークン生成トランスフォーマー(左側)と比較するための同じデコーダーモデルを使用しています。 GIVTは、入力時に斜めに並んだ連続した実数値ベクトルのシーケンスで離散トークンを置き換えます。有限のボキャブラリー上のカテゴリカル分布を予測する代わりに、GIVTは出力時に連続した実数値ベクトル上の連続した分布のパラメータを予測します。

高解像度の画像を平坦化して生成されるRGBピクセルの系列は、理論的には任意の特徴ベクトルの系列にGIVTを適用することができるものの、直接的にモデル化するのは難しい例です。それは長くて複雑な分布を持っていることもあります。したがって、研究チームはまず、ガウス事前VAEを使用して低次元の潜在空間をトレーニングし、次にGIVTでモデル化します。これは、VQ-VAEと類似した2段階のテクニックに似ています。研究チームはまた、シーケンスモデリングの文献からいくつかの推論戦略(温度サンプリングや分類器フリーガイディングなど)を転用しました。

注目すべきは、実数値トークンだけを使って、これによってVQベースの技術と同等か優れたモデルが生成されることです。以下に彼らの主な貢献を簡潔に述べます:

1. UViMを使用して、研究チームはGIVTが密な予測タスク(セマンティックセグメンテーション、深度推定、ピクチャーシンセシスなど)において、通常の離散トークン変換デコーダーよりも同等または優れたパフォーマンスを達成することを示しています。

2. 研究チームは、連続ケースにおける従来のサンプリング方法の効果(温度サンプリング、ビームサーチ、分類器フリーガイディング)の派生と有効性を導き出し、証明しました。

3. KL項の重み付けを使用して、研究チームはVAE潜在空間の正規化レベルと現れるGIVTの特性との関連性を検討しました。研究チームは、VQ-VAE文献の洗練されたトレーニング方法(潜在表現への補助損失、コードブックの再初期化、専用の最適化アルゴリズムなど)はVAEおよびGIVTのトレーニングでは使用されていないことを強調しており、単純に通常の深層学習ツールボックスのアプローチに依存していると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UCバークレーとMeta AIの研究者らは、トラックレット上で3Dポーズとコンテキスト化された外観を融合することにより、ラグランジュアクション認識モデルを提案しています

流体力学では、ラグランジュ流体場形式とオイラー流体場形式を区別することが慣習となっています。Wikipediaによると、「流体...

機械学習

あなたのポケットにアーティストの相棒:SnapFusionは、拡散モデルのパワーをモバイルデバイスにもたらすAIアプローチです

拡散モデル。AI領域の進歩に注目している場合、この用語については多く聞いたことがあるでしょう。それらは生成型AI手法の革...

機械学習

Pixis AIとは、コードを書かずにAIソリューションを提供する新興のスタートアップです

AIモデルのトレーニングには膨大な情報が必要です。しかし、すべての情報が同じではありません。モデルをトレーニングするた...

データサイエンス

「部分情報分解とは何か、そして特徴がどのように相互作用するのか」

ターゲット変数が複数の情報源に影響を受ける場合、各情報源が全体的な情報にどのように寄与しているかを理解することは重要...

データサイエンス

ジェネレーティブAIツールを使用する際にプライバシーを保護するための6つの手順

イントロダクション 生成型AIツールの出現は、興奮と懸念を引き起こしました。これらのツールは私たちの生活と仕事を革新する...

機械学習

FedMLとThetaが分散型AIスーパークラスターを発表:生成AIとコンテンツ推薦を強化

画期的なコラボレーションにより、FedMLとTheta Networkは、生成型AIとコンテンツ推薦の風景を変えるための分散型AIスーパー...