UCバークレーの研究者たちは、「リングアテンション:トランスフォーマーのメモリ要件を削減するためのメモリ効率の良い人工知能アプローチ」という提案を行っています

UCバークレー研究者が提案する「リングアテンション:トランスフォーマーのメモリ効率化を図るAIアプローチ」

ディープラーニングモデルアーキテクチャの一種であるTransformerは、多くの最先端のAIモデルの文脈で使われます。これらは人工知能の分野を革新しました、特に自然言語処理や機械学習のさまざまなタスクにおいて。予測を行う際に、モデルは入力シーケンスの異なる部分の重要性を重さ付けする自己注意メカニズムに基づいています。これらはエンコーダとデコーダからなり、入力を処理します。

ただし、Transformerのコンテキストの長さを拡張するのは多くの作業が必要です。これは、負荷のかかる自己注意のためです。自己注意は、入力シーケンスの長さに平方比例するメモリのコストを持ち、長い入力シーケンスにスケールすることは困難になります。UCバークレイの研究者たちは、この問題に対処するために、シンプルな観察に基づいた「リングアテンション」と呼ばれる方法を開発しました。彼らは、自己注意とフィードフォワードネットワークの計算をブロックごとに行い、シーケンスを複数のデバイスに分散して容易に解析できることを観察しました。

彼らは、ブロックごとの注意をホスト間で分散し、各デバイスが指定された入力ブロックに特化したブロックごとの注意とフィードフォワード操作を計算します。彼らのホストデバイスは概念的なリングを形成し、リング内の次のデバイスにブロックごとの計算に使用されているキー-値ブロックのコピーを送信します。同時に前のデバイスからキーバリューブロックを受信します。

ブロック計算にはブロック転送よりも長い時間がかかります。研究チームはこれらのプロセスを重ね合わせ、通常のTransformerと比較して追加のオーバーヘッドが発生しませんでした。これにより、各デバイスには元の入力シーケンスの長さに依存しないブロックサイズに比例したメモリのみが必要となります。これにより、個々のデバイスによって課せられるメモリ制約がなくなります。

実験の結果、リングアテンションにより、従来の効率的なメモリ使用状態を持つ最先端のTransformerよりも500倍以上長いシーケンスに対してトレーニングを行うことができることが示されました。この方法では、アテンションの近似を行わずに、1億以上の長さのシーケンスをトレーニングすることも可能です。また、リングアテンションにより、個々のデバイスによって課せられるメモリ制約をなくすことで、ほぼ無限のコンテキストサイズを実現することもできます。ただし、シーケンスの長さはデバイスの数に比例するため、多くのデバイスが必要になります。

この研究では、大規模なトレーニングモデルは含まれていません。コンテキストの長さはデバイスの数に依存するため、モデルの効率性は最適化に依存します。研究者たちは将来的には最大シーケンス長と最大コンピューターパフォーマンスの両方に取り組みたいと述べています。無限に近いコンテキストの可能性により、大規模なビデオオーディオ言語モデル、拡張されたフィードバックとトライアンドエラーからの学習、コードベースの理解と生成、および遺伝子配列などの科学データを理解するためのAIモデルの適応など、多くの興味深い機会が生まれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

アップリフトモデルの評価

業界での因果推論の最も広く利用されているアプリケーションの1つは、アップリフトモデリング、または条件付き平均治療効果の...

機械学習

このAI論文は、デュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

姿勢推定とは、物体の位置と方向を空間上で決定することを含む分野であり、継続的に新しい手法を開発して精度とパフォーマン...

機械学習

聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化...

AIニュース

大ニュース:Google、ジェミニAIモデルのローンチを延期

予想外の展開となり、Googleは最先端のAIモデル「Gemini」の高い期待を集めるローンチを来年の1月まで延期することを選びまし...

AI研究

研究者たちは、アルゴリズムに「味覚」を教えることに成功しました

科学者たちは、アルゴリズムによって個々の人のワインの好みをより正確に予測する方法を教えました

機械学習

クロスバリデーションの助けを借りて、あなたの機械学習モデルに自信を持ちましょう

「訓練された機械学習モデルを訓練データ自体で評価することは基本的に間違っていますもし評価が行われれば、モデルは訓練中...