UCバークレーの研究者たちは、「リングアテンション:トランスフォーマーのメモリ要件を削減するためのメモリ効率の良い人工知能アプローチ」という提案を行っています

UCバークレー研究者が提案する「リングアテンション:トランスフォーマーのメモリ効率化を図るAIアプローチ」

ディープラーニングモデルアーキテクチャの一種であるTransformerは、多くの最先端のAIモデルの文脈で使われます。これらは人工知能の分野を革新しました、特に自然言語処理や機械学習のさまざまなタスクにおいて。予測を行う際に、モデルは入力シーケンスの異なる部分の重要性を重さ付けする自己注意メカニズムに基づいています。これらはエンコーダとデコーダからなり、入力を処理します。

ただし、Transformerのコンテキストの長さを拡張するのは多くの作業が必要です。これは、負荷のかかる自己注意のためです。自己注意は、入力シーケンスの長さに平方比例するメモリのコストを持ち、長い入力シーケンスにスケールすることは困難になります。UCバークレイの研究者たちは、この問題に対処するために、シンプルな観察に基づいた「リングアテンション」と呼ばれる方法を開発しました。彼らは、自己注意とフィードフォワードネットワークの計算をブロックごとに行い、シーケンスを複数のデバイスに分散して容易に解析できることを観察しました。

彼らは、ブロックごとの注意をホスト間で分散し、各デバイスが指定された入力ブロックに特化したブロックごとの注意とフィードフォワード操作を計算します。彼らのホストデバイスは概念的なリングを形成し、リング内の次のデバイスにブロックごとの計算に使用されているキー-値ブロックのコピーを送信します。同時に前のデバイスからキーバリューブロックを受信します。

ブロック計算にはブロック転送よりも長い時間がかかります。研究チームはこれらのプロセスを重ね合わせ、通常のTransformerと比較して追加のオーバーヘッドが発生しませんでした。これにより、各デバイスには元の入力シーケンスの長さに依存しないブロックサイズに比例したメモリのみが必要となります。これにより、個々のデバイスによって課せられるメモリ制約がなくなります。

実験の結果、リングアテンションにより、従来の効率的なメモリ使用状態を持つ最先端のTransformerよりも500倍以上長いシーケンスに対してトレーニングを行うことができることが示されました。この方法では、アテンションの近似を行わずに、1億以上の長さのシーケンスをトレーニングすることも可能です。また、リングアテンションにより、個々のデバイスによって課せられるメモリ制約をなくすことで、ほぼ無限のコンテキストサイズを実現することもできます。ただし、シーケンスの長さはデバイスの数に比例するため、多くのデバイスが必要になります。

この研究では、大規模なトレーニングモデルは含まれていません。コンテキストの長さはデバイスの数に依存するため、モデルの効率性は最適化に依存します。研究者たちは将来的には最大シーケンス長と最大コンピューターパフォーマンスの両方に取り組みたいと述べています。無限に近いコンテキストの可能性により、大規模なビデオオーディオ言語モデル、拡張されたフィードバックとトライアンドエラーからの学習、コードベースの理解と生成、および遺伝子配列などの科学データを理解するためのAIモデルの適応など、多くの興味深い機会が生まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

バードが強化された機能を発表:Gmail、Drive、および他のGoogle Appsとの統合

ジェネラティブAIとの協力を革新するために、Bardはこれまでにない最先端のモデルを導入しました。この革新はゲームチェンジ...

データサイエンス

線形回帰と勾配降下法

線形回帰は機械学習に存在する基本アルゴリズムの1つですその内部ワークフローを理解することは、データサイエンスの他のアル...

機械学習

勾配消失問題:原因、結果、および解決策

このブログ投稿は、消失勾配問題を説明し、シグモイド関数の使用がそれにつながった理由を説明することを目的としています

機械学習

Google DeepMindは、NaViTという新しいViTモデルを導入しましたこのモデルは、トレーニング中にシーケンスパッキングを使用して、任意の解像度やアスペクト比の入力を処理します

ビジョントランスフォーマ(ViT)は、そのシンプルさ、柔軟性、スケーラビリティのために、畳み込みベースのニューラルネット...

機械学習

機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索

アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生...

機械学習

「品質と責任について大規模な言語モデルを評価する」

生成AIに関連するリスクは広く公表されています有毒性、偏見、逸出した個人情報、幻覚は組織の評判に悪影響を与え、顧客の信...