Perceiver AR（パーシーバーAR）：汎用、長文脈の自己回帰生成

'Perceiver AR Universal, Long-context Self-regressive Generation'

ここ数年、自己回帰型トランスフォーマーは生成モデリングでのブレークスルーをもたらしています。これらのモデルは、画像のピクセル、テキストの文字（通常は「トークン」の塊）、オーディオ波形のサンプルなど、サンプルの各要素を予測することで、一つの要素を他の要素に続けて生成します。次の要素を予測する際、モデルは以前に作成された要素を参照することができます。

ただし、トランスフォーマーの各層は、より多くの要素が入力として使用されるとより高価になります。そのため、実践者は長さが約2,048要素を超えないようなシーケンスに対してのみ、深いトランスフォーマーを訓練することができます。したがって、ほとんどのトランスフォーマーベースのモデルは、予測を行う際に最も最近の過去（約1,500語または小さな画像の1/6）を超えるすべての要素を無視します。

これに対して、私たちが最近開発したパーシーバーモデルは、最大約100,000の要素を持つさまざまな実世界のタスクで優れた結果を出します。パーシーバーは、入力を潜在空間にエンコードするためにクロスアテンションを使用し、入力の計算要件をモデルの深さから切り離します。パーシーバーはまた、ほとんどの層で入力サイズにかかわらず固定のコストを費やします。

潜在空間エンコーディングは一度にすべての要素を処理しますが、自己回帰生成では一度に要素を一つずつ処理すると想定されています。この問題に対処するため、Perceiver ARはシンプルな解決策を提案しています。入力の最終要素と一つずつ潜在要素を整列させ、潜在要素が以前の要素のみを参照するように入力を適切にマスクします。

Perceiver ARは、クロスアテンションを使用して入力シーケンス（P e r c e i v e r A R）を小さな潜在空間にマッピングし、各ターゲットトークンごとに潜在空間を生成します（3つの潜在空間が表示されており、ターゲット A R <EOS>、E nd O f S equence のための1つずつです）。これらの潜在要素は、深い自己注意層のスタックで処理されます。Perceiver ARは、非常に長い入力シーケンスを利用しながら、エンドツーエンドの自己回帰生成のためにトレーニングすることができます。

その結果、上記のアーキテクチャは、標準のトランスフォーマーよりも50倍長い入力に注意を払いながら、標準のデコーダーのみのトランスフォーマーと同様に広く（本質的に容易に）デプロイすることができます。

コンテキストの長さやモデルのサイズが増えるにつれて、モデルの訓練に必要な計算量も増えます。入力コンテキストの長さとモデルのサイズが増えるにつれて、実際のハードウェア上での速度（TPUv3での秒あたりのステップ数）を測定することにより、さまざまなモデルの計算予算を定量化することができます。トランスフォーマーやトランスフォーマー-XLなどの他の生成モデルとは異なり、Perceiver ARは入力コンテキストの長さをモデルの深さから切り離すため、現行世代のTPUやGPU上で長いシーケンスをモデル化するために必要な深いモデルを簡単に展開することができます。

Perceiver ARは、実際の用語でさまざまなシーケンス長にわたって、標準のトランスフォーマーやトランスフォーマー-XLモデルよりもはるかに優れたスケーラビリティを持ちます。この特性により、非常に効果的な長いコンテキストモデルを構築することができます。たとえば、コンテキストの長さが8192の60層のPerceiver ARは、本の長さの生成タスクで42層のTransformer-XLよりも優れた結果を出し、実際のウォールクロック時間でより速く実行されます。

標準の長いコンテキストの画像（ImageNet 64×64）、言語（PG-19）、音楽（MAESTRO）の生成ベンチマークでは、Perceiver ARは最先端の結果を生み出します。入力コンテキストを拡張し、入力サイズと計算予算を切り離すことで、いくつかの興味深い結果が得られます。

評価時にコンピューティング予算を適応させることができるため、品質を低下させることなく予算を削減したり、品質向上のために予算を増やすことができます。
より大きなコンテキストにより、Perceiver ARはTransformer-XLを上回る性能を発揮します。同じコンピューティングコストでも、より大きなコンテキストはモデルの性能向上につながります。(~1Bパラメータの規模でも)
Perceiver ARのサンプルの品質は、生成要素の順序への感度が非常に低くなっています。これにより、Perceiver ARは自然な左から右への順序を持たない設定（例：画像など、1つ以上の次元にまたがる構造を持つデータ）に簡単に適用することができます。

ピアノの音楽データセットを使用して、Perceiver ARを学習させてゼロから新しい音楽を生成しました。各新しい音符は、前に来た音符の完全なシーケンスに基づいて予測されるため、Perceiver ARはメロディ、ハーモニー、リズムの結合度が高い曲を生成することができます：

Perceiver ARの使用方法について詳しくは以下をご覧ください：

GithubでPerceiver ARのトレーニングのためのJAXコードをダウンロードする
arXivでの論文を読む
ICML 2022でのスポットライトプレゼンテーションをチェックする

さらなる音楽に関するGoogle Magentaのブログ投稿をご覧ください！

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

Perceiver AR（パーシーバーAR）：汎用、長文脈の自己回帰生成

Was this article helpful?

AIバイアス：課題と解決策

キルギスタンからキングスクロスまで：コードを作り上げるスターベーカー

AIテクノロジー

「2024年に注目すべきトップ10のソフトウェアアウトソーシング企業」

「ユーザーエクスペリエンスの向上に役立つAIの6つの異なる方法」

アルトコインへの投資：暗号市場の包括的ガイド

ベスト5のRコース（2024年）

Spotifyで学んだ初心者データサイエンティストのための5つの重要なレッスン（パート2）

「金融業界におけるAIの進出：自動取引からパーソナライズドバンキングへ」