このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、より高品質かつ高速な処理のために条件付き計算を使用する、長距離入力のためのものです

このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、高品質かつ高速な処理のために条件付き計算を使用し、長距離入力に対応します

様々な自然言語処理タスクにおいて、長い文章をエンコードするためには、機械学習モデルが必要です。例えば、長い文書の要約や質問に対する回答などです。Transformerモデルを使用して長いテキストを処理すると、入力の長さに比例して注意コストが二次的に増加し、各入力トークンに対してフィードフォワードやプロジェクション層を適用する必要があり、計算コストが高くなります。近年、長い入力の注意機構の負荷を軽減するための「効率的なTransformer」戦略がいくつか提案されています。しかし、フィードフォワードやプロジェクション層は、特に大きなモデルの場合には計算負荷の大部分を占め、長い入力の解析が不可能になることがあります。本研究では、COLT5という新しいモデルファミリーを紹介します。COLT5は、注意機構とフィードフォワード層の両方にアーキテクチャの改良を組み込むことで、LONGT5をベースにして長い入力の高速処理を可能にします。

COLT5の基盤となる考え方は、特定のトークンが他のトークンよりも重要であるということ、そして重要なトークンにより多くの計算リソースを割り当てることで、より高品質な結果を低コストで得ることができるということです。例えば、COLT5は、各フィードフォワード層と各注意層を、すべてのトークンに適用する軽いブランチと、その入力と要素に特に選ばれた重要なトークンのために使用される重いブランチに分けています。通常のLONGT5に比べて、軽いフィードフォワードブランチの隠れ次元は重いフィードフォワードブランチよりも小さくなっています。また、重要なトークンの割合は文書の長さに応じて減少し、長いテキストの処理を可能にします。

図1:条件付き計算COLT5 Transformerレイヤーの概要。

図1にはCOLT5の条件付きメカニズムの概要が示されています。COLT5のおかげで、LONGT5アーキテクチャはさらに2つの変更が加わりました。重い注意ブランチは、慎重に選ばれた重要なトークンの異なるセットに対して完全な注意を行い、軽い注意ブランチはより少ないヘッドを持ち、ローカルな注意を適用します。COLT5が導入するマルチクエリクロスアテンションは、推論を劇的に高速化します。さらに、COLT5はUL2の事前学習ターゲットを使用し、長い入力にわたる文脈における学習を可能にします。

Google Researchの研究者たちは、パフォーマンスと高速処理のために条件付き計算を使用する遠隔入力向けの新しいモデルであるCOLT5を提案しています。彼らは、COLT5がarXivの要約データセットやTriviaQAの質問応答データセットでLONGT5を上回り、SCROLLSベンチマークでもSOTAに達することを示しています。COLT5は「フォーカス」トークンの非線形スケーリングにより、長い入力の品質とパフォーマンスを大幅に向上させます。COLT5は、同じまたは優れたモデル品質で、非常に高速なファインチューニングと推論を行うことも可能です。COLT5の軽いフィードフォワード層と注意層はすべての入力に適用されますが、重いブランチは学習済みのルータによって選択された重要なトークンにのみ影響を与えます。彼らは、COLT5がさまざまな長い入力データセットでLONGT5を上回り、64kトークンまで非常に長い入力を効果的かつ効率的に処理できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

なぜAIチップの将来がニューロモーフィックコンピューティングにおいて重要なのか?

神経形態計算はAIとIoTを変革する可能性がありますより正確で多様性に富み、信頼性の高いアクセスしやすいAIの波を引き起こす...

データサイエンス

「野心的なAI規制に対する力強いプロセス:オックスフォード研究からの3ステップソリューション」

「もしアカウンタブルマネージャーやプロダクトオーナー、プロジェクトマネージャー、もしくはデータサイエンティストで、AI...

AIニュース

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器...

データサイエンス

「ブラックボックスの解除:ディープニューラルネットワークにおけるデータ処理の理解のための定量的法則」

人工知能の魅力は、特に深層学習の神秘的な領域で長く謎に包まれてきました。これらの複雑なニューラルネットワークは、複雑...

AI研究

ミシガン州立大学の研究者たちは、規模の大きな一細胞遺伝子発現の分析をサポートするためのPythonライブラリ「DANCE」を開発しました

単一モダリティのプロファイリング(RNA、タンパク質、オープンクロマチン)から多モダリティのプロファイリングや空間的トラ...

機械学習

魚の養殖スタートアップ、AIを投入して水産養殖をより効率的かつ持続可能にする

海洋生物学の学生だったJosef Melchnerは、イルカ、クジラ、魚を探すために毎日海をクルーズすることを常に夢見ていましたが...