Perceiver AR(パーシーバーAR):汎用、長文脈の自己回帰生成
'Perceiver AR Universal, Long-context Self-regressive Generation'
ここ数年、自己回帰型トランスフォーマーは生成モデリングでのブレークスルーをもたらしています。これらのモデルは、画像のピクセル、テキストの文字(通常は「トークン」の塊)、オーディオ波形のサンプルなど、サンプルの各要素を予測することで、一つの要素を他の要素に続けて生成します。次の要素を予測する際、モデルは以前に作成された要素を参照することができます。
ただし、トランスフォーマーの各層は、より多くの要素が入力として使用されるとより高価になります。そのため、実践者は長さが約2,048要素を超えないようなシーケンスに対してのみ、深いトランスフォーマーを訓練することができます。したがって、ほとんどのトランスフォーマーベースのモデルは、予測を行う際に最も最近の過去(約1,500語または小さな画像の1/6)を超えるすべての要素を無視します。
これに対して、私たちが最近開発したパーシーバーモデルは、最大約100,000の要素を持つさまざまな実世界のタスクで優れた結果を出します。パーシーバーは、入力を潜在空間にエンコードするためにクロスアテンションを使用し、入力の計算要件をモデルの深さから切り離します。パーシーバーはまた、ほとんどの層で入力サイズにかかわらず固定のコストを費やします。
潜在空間エンコーディングは一度にすべての要素を処理しますが、自己回帰生成では一度に要素を一つずつ処理すると想定されています。この問題に対処するため、Perceiver ARはシンプルな解決策を提案しています。入力の最終要素と一つずつ潜在要素を整列させ、潜在要素が以前の要素のみを参照するように入力を適切にマスクします。
その結果、上記のアーキテクチャは、標準のトランスフォーマーよりも50倍長い入力に注意を払いながら、標準のデコーダーのみのトランスフォーマーと同様に広く(本質的に容易に)デプロイすることができます。
Perceiver ARは、実際の用語でさまざまなシーケンス長にわたって、標準のトランスフォーマーやトランスフォーマー-XLモデルよりもはるかに優れたスケーラビリティを持ちます。この特性により、非常に効果的な長いコンテキストモデルを構築することができます。たとえば、コンテキストの長さが8192の60層のPerceiver ARは、本の長さの生成タスクで42層のTransformer-XLよりも優れた結果を出し、実際のウォールクロック時間でより速く実行されます。
標準の長いコンテキストの画像(ImageNet 64×64)、言語(PG-19)、音楽(MAESTRO)の生成ベンチマークでは、Perceiver ARは最先端の結果を生み出します。入力コンテキストを拡張し、入力サイズと計算予算を切り離すことで、いくつかの興味深い結果が得られます。
- 評価時にコンピューティング予算を適応させることができるため、品質を低下させることなく予算を削減したり、品質向上のために予算を増やすことができます。
- より大きなコンテキストにより、Perceiver ARはTransformer-XLを上回る性能を発揮します。同じコンピューティングコストでも、より大きなコンテキストはモデルの性能向上につながります。(~1Bパラメータの規模でも)
- Perceiver ARのサンプルの品質は、生成要素の順序への感度が非常に低くなっています。これにより、Perceiver ARは自然な左から右への順序を持たない設定(例:画像など、1つ以上の次元にまたがる構造を持つデータ)に簡単に適用することができます。
ピアノの音楽データセットを使用して、Perceiver ARを学習させてゼロから新しい音楽を生成しました。各新しい音符は、前に来た音符の完全なシーケンスに基づいて予測されるため、Perceiver ARはメロディ、ハーモニー、リズムの結合度が高い曲を生成することができます:
Perceiver ARの使用方法について詳しくは以下をご覧ください:
- GithubでPerceiver ARのトレーニングのためのJAXコードをダウンロードする
- arXivでの論文を読む
- ICML 2022でのスポットライトプレゼンテーションをチェックする
さらなる音楽に関するGoogle Magentaのブログ投稿をご覧ください!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles