Perceiver AR(パーシーバーAR):汎用、長文脈の自己回帰生成

'Perceiver AR Universal, Long-context Self-regressive Generation'

ここ数年、自己回帰型トランスフォーマーは生成モデリングでのブレークスルーをもたらしています。これらのモデルは、画像のピクセル、テキストの文字(通常は「トークン」の塊)、オーディオ波形のサンプルなど、サンプルの各要素を予測することで、一つの要素を他の要素に続けて生成します。次の要素を予測する際、モデルは以前に作成された要素を参照することができます。

ただし、トランスフォーマーの各層は、より多くの要素が入力として使用されるとより高価になります。そのため、実践者は長さが約2,048要素を超えないようなシーケンスに対してのみ、深いトランスフォーマーを訓練することができます。したがって、ほとんどのトランスフォーマーベースのモデルは、予測を行う際に最も最近の過去(約1,500語または小さな画像の1/6)を超えるすべての要素を無視します。

これに対して、私たちが最近開発したパーシーバーモデルは、最大約100,000の要素を持つさまざまな実世界のタスクで優れた結果を出します。パーシーバーは、入力を潜在空間にエンコードするためにクロスアテンションを使用し、入力の計算要件をモデルの深さから切り離します。パーシーバーはまた、ほとんどの層で入力サイズにかかわらず固定のコストを費やします。

潜在空間エンコーディングは一度にすべての要素を処理しますが、自己回帰生成では一度に要素を一つずつ処理すると想定されています。この問題に対処するため、Perceiver ARはシンプルな解決策を提案しています。入力の最終要素と一つずつ潜在要素を整列させ、潜在要素が以前の要素のみを参照するように入力を適切にマスクします。

Perceiver ARは、クロスアテンションを使用して入力シーケンス(P e r c e i v e r A R)を小さな潜在空間にマッピングし、各ターゲットトークンごとに潜在空間を生成します(3つの潜在空間が表示されており、ターゲット A R <EOS>、E nd O f S equence のための1つずつです)。これらの潜在要素は、深い自己注意層のスタックで処理されます。Perceiver ARは、非常に長い入力シーケンスを利用しながら、エンドツーエンドの自己回帰生成のためにトレーニングすることができます。

その結果、上記のアーキテクチャは、標準のトランスフォーマーよりも50倍長い入力に注意を払いながら、標準のデコーダーのみのトランスフォーマーと同様に広く(本質的に容易に)デプロイすることができます。

コンテキストの長さやモデルのサイズが増えるにつれて、モデルの訓練に必要な計算量も増えます。入力コンテキストの長さとモデルのサイズが増えるにつれて、実際のハードウェア上での速度(TPUv3での秒あたりのステップ数)を測定することにより、さまざまなモデルの計算予算を定量化することができます。トランスフォーマーやトランスフォーマー-XLなどの他の生成モデルとは異なり、Perceiver ARは入力コンテキストの長さをモデルの深さから切り離すため、現行世代のTPUやGPU上で長いシーケンスをモデル化するために必要な深いモデルを簡単に展開することができます。

Perceiver ARは、実際の用語でさまざまなシーケンス長にわたって、標準のトランスフォーマーやトランスフォーマー-XLモデルよりもはるかに優れたスケーラビリティを持ちます。この特性により、非常に効果的な長いコンテキストモデルを構築することができます。たとえば、コンテキストの長さが8192の60層のPerceiver ARは、本の長さの生成タスクで42層のTransformer-XLよりも優れた結果を出し、実際のウォールクロック時間でより速く実行されます。

標準の長いコンテキストの画像(ImageNet 64×64)、言語(PG-19)、音楽(MAESTRO)の生成ベンチマークでは、Perceiver ARは最先端の結果を生み出します。入力コンテキストを拡張し、入力サイズと計算予算を切り離すことで、いくつかの興味深い結果が得られます。

  • 評価時にコンピューティング予算を適応させることができるため、品質を低下させることなく予算を削減したり、品質向上のために予算を増やすことができます。
  • より大きなコンテキストにより、Perceiver ARはTransformer-XLを上回る性能を発揮します。同じコンピューティングコストでも、より大きなコンテキストはモデルの性能向上につながります。(~1Bパラメータの規模でも)
  • Perceiver ARのサンプルの品質は、生成要素の順序への感度が非常に低くなっています。これにより、Perceiver ARは自然な左から右への順序を持たない設定(例:画像など、1つ以上の次元にまたがる構造を持つデータ)に簡単に適用することができます。

ピアノの音楽データセットを使用して、Perceiver ARを学習させてゼロから新しい音楽を生成しました。各新しい音符は、前に来た音符の完全なシーケンスに基づいて予測されるため、Perceiver ARはメロディ、ハーモニー、リズムの結合度が高い曲を生成することができます:

Perceiver ARの使用方法について詳しくは以下をご覧ください:

  • GithubでPerceiver ARのトレーニングのためのJAXコードをダウンロードする
  • arXivでの論文を読む
  • ICML 2022でのスポットライトプレゼンテーションをチェックする

さらなる音楽に関するGoogle Magentaのブログ投稿をご覧ください!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ビジネス成功のためのAIデータツールの活用」

「AIデータツールがビジネスを変革する方法を探求しましょうコスト削減から予測的な洞察まで、実装方法やデータ分析の将来的...

データサイエンス

2024年のトップ10のAI主導のデータ分析企業

2024年にデータ分析の世界を革新する傾向にあるトップのビジネスタイタンを発見してくださいIBM CloudからGoogle Cloudまで、...

AIテクノロジー

2023年にリモートジョブを見つけるための最高のプラットフォーム

進化する労働環境に伴い、リモートの仕事の機会を提供する信頼性のあるプラットフォームへの需要が急増しています詳しくはこ...

AIテクノロジー

「リターンオファーを得る方法」 (リターンオファーをえるほうほう)

学生の視点から見ると、インターンシップの主な目標は、来年の夏にインターンとしてまたは正社員として戻ってくるために、そ...

AIテクノロジー

「2023年に注目すべきトップ7のデジタルマーケティングのトレンド」

「2023年のデジタルマーケティングのトレンドを探索しましょう:AI、VR / ARコンテンツ、対話型マーケティング、インフルエン...

AIテクノロジー

「マーケティングにおける人工知能の短いガイド」

「デジタルマーケティングにおける人工知能の役割や、ビジネスにおける他のAIツールがデータに基づく意思決定に与える影響に...