UCバークレーの研究者たちは、「リングアテンション:トランスフォーマーのメモリ要件を削減するためのメモリ効率の良い人工知能アプローチ」という提案を行っています
UCバークレー研究者が提案する「リングアテンション:トランスフォーマーのメモリ効率化を図るAIアプローチ」
ディープラーニングモデルアーキテクチャの一種であるTransformerは、多くの最先端のAIモデルの文脈で使われます。これらは人工知能の分野を革新しました、特に自然言語処理や機械学習のさまざまなタスクにおいて。予測を行う際に、モデルは入力シーケンスの異なる部分の重要性を重さ付けする自己注意メカニズムに基づいています。これらはエンコーダとデコーダからなり、入力を処理します。
ただし、Transformerのコンテキストの長さを拡張するのは多くの作業が必要です。これは、負荷のかかる自己注意のためです。自己注意は、入力シーケンスの長さに平方比例するメモリのコストを持ち、長い入力シーケンスにスケールすることは困難になります。UCバークレイの研究者たちは、この問題に対処するために、シンプルな観察に基づいた「リングアテンション」と呼ばれる方法を開発しました。彼らは、自己注意とフィードフォワードネットワークの計算をブロックごとに行い、シーケンスを複数のデバイスに分散して容易に解析できることを観察しました。
彼らは、ブロックごとの注意をホスト間で分散し、各デバイスが指定された入力ブロックに特化したブロックごとの注意とフィードフォワード操作を計算します。彼らのホストデバイスは概念的なリングを形成し、リング内の次のデバイスにブロックごとの計算に使用されているキー-値ブロックのコピーを送信します。同時に前のデバイスからキーバリューブロックを受信します。
- 「マイクロソフトの研究者たちはDeepSpeed-VisualChatを提案:スケーラブルなマルチモーダル言語モデルの訓練の大きな進歩」というタイトルで、記事の内容を日本語に翻訳すると、以下のようになります
- このAI研究は、事前のイメージングなしで物体のエッジを検出するためのノイズ耐性のある方法を開発しました
- 「生成AIからの社会的および倫理的リスクの評価」
ブロック計算にはブロック転送よりも長い時間がかかります。研究チームはこれらのプロセスを重ね合わせ、通常のTransformerと比較して追加のオーバーヘッドが発生しませんでした。これにより、各デバイスには元の入力シーケンスの長さに依存しないブロックサイズに比例したメモリのみが必要となります。これにより、個々のデバイスによって課せられるメモリ制約がなくなります。
実験の結果、リングアテンションにより、従来の効率的なメモリ使用状態を持つ最先端のTransformerよりも500倍以上長いシーケンスに対してトレーニングを行うことができることが示されました。この方法では、アテンションの近似を行わずに、1億以上の長さのシーケンスをトレーニングすることも可能です。また、リングアテンションにより、個々のデバイスによって課せられるメモリ制約をなくすことで、ほぼ無限のコンテキストサイズを実現することもできます。ただし、シーケンスの長さはデバイスの数に比例するため、多くのデバイスが必要になります。
この研究では、大規模なトレーニングモデルは含まれていません。コンテキストの長さはデバイスの数に依存するため、モデルの効率性は最適化に依存します。研究者たちは将来的には最大シーケンス長と最大コンピューターパフォーマンスの両方に取り組みたいと述べています。無限に近いコンテキストの可能性により、大規模なビデオオーディオ言語モデル、拡張されたフィードバックとトライアンドエラーからの学習、コードベースの理解と生成、および遺伝子配列などの科学データを理解するためのAIモデルの適応など、多くの興味深い機会が生まれます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 研究者がCODES+ISSS最優秀論文賞を受賞しました
- スタンフォード、NVIDIA、およびUT Austinの研究者は、クロスエピソードカリキュラム(CEC)と呼ばれる新しい人工知能アルゴリズムを提案しましたこれにより、トランスフォーマーエージェントの学習効率と汎化能力が向上します
- シンガポール国立大学の研究者たちは、ピクセルベースと潜在ベースのVDMを結びつけたハイブリッド人工知能モデルであるShow-1を提案しますこれはテキストからビデオを生成するものです
- Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行
- このAI研究は、FlashAttentionに基づいた新しい人工知能アプローチであるフラッシュデコーディングを紹介しますこれにより、長いコンテキストのLLM推論を最大8倍速く行うことができます
- このAI研究は、ロボット学習および具現化人工知能の研究のための包括的なソフトウェアプラットフォームとエコシステムであるRoboHiveを提案しています
- NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained