このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、より高品質かつ高速な処理のために条件付き計算を使用する、長距離入力のためのものです

このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、高品質かつ高速な処理のために条件付き計算を使用し、長距離入力に対応します

様々な自然言語処理タスクにおいて、長い文章をエンコードするためには、機械学習モデルが必要です。例えば、長い文書の要約や質問に対する回答などです。Transformerモデルを使用して長いテキストを処理すると、入力の長さに比例して注意コストが二次的に増加し、各入力トークンに対してフィードフォワードやプロジェクション層を適用する必要があり、計算コストが高くなります。近年、長い入力の注意機構の負荷を軽減するための「効率的なTransformer」戦略がいくつか提案されています。しかし、フィードフォワードやプロジェクション層は、特に大きなモデルの場合には計算負荷の大部分を占め、長い入力の解析が不可能になることがあります。本研究では、COLT5という新しいモデルファミリーを紹介します。COLT5は、注意機構とフィードフォワード層の両方にアーキテクチャの改良を組み込むことで、LONGT5をベースにして長い入力の高速処理を可能にします。

COLT5の基盤となる考え方は、特定のトークンが他のトークンよりも重要であるということ、そして重要なトークンにより多くの計算リソースを割り当てることで、より高品質な結果を低コストで得ることができるということです。例えば、COLT5は、各フィードフォワード層と各注意層を、すべてのトークンに適用する軽いブランチと、その入力と要素に特に選ばれた重要なトークンのために使用される重いブランチに分けています。通常のLONGT5に比べて、軽いフィードフォワードブランチの隠れ次元は重いフィードフォワードブランチよりも小さくなっています。また、重要なトークンの割合は文書の長さに応じて減少し、長いテキストの処理を可能にします。

図1:条件付き計算COLT5 Transformerレイヤーの概要。

図1にはCOLT5の条件付きメカニズムの概要が示されています。COLT5のおかげで、LONGT5アーキテクチャはさらに2つの変更が加わりました。重い注意ブランチは、慎重に選ばれた重要なトークンの異なるセットに対して完全な注意を行い、軽い注意ブランチはより少ないヘッドを持ち、ローカルな注意を適用します。COLT5が導入するマルチクエリクロスアテンションは、推論を劇的に高速化します。さらに、COLT5はUL2の事前学習ターゲットを使用し、長い入力にわたる文脈における学習を可能にします。

Google Researchの研究者たちは、パフォーマンスと高速処理のために条件付き計算を使用する遠隔入力向けの新しいモデルであるCOLT5を提案しています。彼らは、COLT5がarXivの要約データセットやTriviaQAの質問応答データセットでLONGT5を上回り、SCROLLSベンチマークでもSOTAに達することを示しています。COLT5は「フォーカス」トークンの非線形スケーリングにより、長い入力の品質とパフォーマンスを大幅に向上させます。COLT5は、同じまたは優れたモデル品質で、非常に高速なファインチューニングと推論を行うことも可能です。COLT5の軽いフィードフォワード層と注意層はすべての入力に適用されますが、重いブランチは学習済みのルータによって選択された重要なトークンにのみ影響を与えます。彼らは、COLT5がさまざまな長い入力データセットでLONGT5を上回り、64kトークンまで非常に長い入力を効果的かつ効率的に処理できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

『日常のデザイン(AI)』

ドン・ノーマンの1988年のデザインの古典である『デザインの心理学』は、以来、優れたハードウェアとソフトウェアの設計に影...

機械学習

「AIを活用した言語学習のためのパーソナルボイスボット」

新しい言語をマスターする最も効果的な方法は何ですか?話すことです!しかし、他の人の前で新しい単語やフレーズを試すこと...

機械学習

「2024年のソフトウェア開発のトレンドと予測18」

2024年のソフトウェア開発の世界は、急速な技術の進歩と同時に進化するセキュリティの課題に備えています

データサイエンス

JAXの始め方

JAXは、Googleが開発したPythonライブラリであり、あらゆるタイプのデバイス(CPU、GPU、TPUなど)で高性能な数値計算を行う...

人工知能

AIが私たちのコーディング方法を変えていく方法

簡単に言うと、この記事では、AIと仕事に関する私の最新の研究の要約(AIが生産性に与える影響を探りながら、長期的な影響に...

AI研究

シンガポール国立大学の研究者たちは、ピクセルベースと潜在ベースのVDMを結びつけたハイブリッド人工知能モデルであるShow-1を提案しますこれはテキストからビデオを生成するものです

シンガポール国立大学の研究者たちは、Show-1というハイブリッドモデルを導入しました。テキストからビデオを生成するための...