このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、より高品質かつ高速な処理のために条件付き計算を使用する、長距離入力のためのものです

このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、高品質かつ高速な処理のために条件付き計算を使用し、長距離入力に対応します

様々な自然言語処理タスクにおいて、長い文章をエンコードするためには、機械学習モデルが必要です。例えば、長い文書の要約や質問に対する回答などです。Transformerモデルを使用して長いテキストを処理すると、入力の長さに比例して注意コストが二次的に増加し、各入力トークンに対してフィードフォワードやプロジェクション層を適用する必要があり、計算コストが高くなります。近年、長い入力の注意機構の負荷を軽減するための「効率的なTransformer」戦略がいくつか提案されています。しかし、フィードフォワードやプロジェクション層は、特に大きなモデルの場合には計算負荷の大部分を占め、長い入力の解析が不可能になることがあります。本研究では、COLT5という新しいモデルファミリーを紹介します。COLT5は、注意機構とフィードフォワード層の両方にアーキテクチャの改良を組み込むことで、LONGT5をベースにして長い入力の高速処理を可能にします。

COLT5の基盤となる考え方は、特定のトークンが他のトークンよりも重要であるということ、そして重要なトークンにより多くの計算リソースを割り当てることで、より高品質な結果を低コストで得ることができるということです。例えば、COLT5は、各フィードフォワード層と各注意層を、すべてのトークンに適用する軽いブランチと、その入力と要素に特に選ばれた重要なトークンのために使用される重いブランチに分けています。通常のLONGT5に比べて、軽いフィードフォワードブランチの隠れ次元は重いフィードフォワードブランチよりも小さくなっています。また、重要なトークンの割合は文書の長さに応じて減少し、長いテキストの処理を可能にします。

図1:条件付き計算COLT5 Transformerレイヤーの概要。

図1にはCOLT5の条件付きメカニズムの概要が示されています。COLT5のおかげで、LONGT5アーキテクチャはさらに2つの変更が加わりました。重い注意ブランチは、慎重に選ばれた重要なトークンの異なるセットに対して完全な注意を行い、軽い注意ブランチはより少ないヘッドを持ち、ローカルな注意を適用します。COLT5が導入するマルチクエリクロスアテンションは、推論を劇的に高速化します。さらに、COLT5はUL2の事前学習ターゲットを使用し、長い入力にわたる文脈における学習を可能にします。

Google Researchの研究者たちは、パフォーマンスと高速処理のために条件付き計算を使用する遠隔入力向けの新しいモデルであるCOLT5を提案しています。彼らは、COLT5がarXivの要約データセットやTriviaQAの質問応答データセットでLONGT5を上回り、SCROLLSベンチマークでもSOTAに達することを示しています。COLT5は「フォーカス」トークンの非線形スケーリングにより、長い入力の品質とパフォーマンスを大幅に向上させます。COLT5は、同じまたは優れたモデル品質で、非常に高速なファインチューニングと推論を行うことも可能です。COLT5の軽いフィードフォワード層と注意層はすべての入力に適用されますが、重いブランチは学習済みのルータによって選択された重要なトークンにのみ影響を与えます。彼らは、COLT5がさまざまな長い入力データセットでLONGT5を上回り、64kトークンまで非常に長い入力を効果的かつ効率的に処理できることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

5つの最高のChatGPT SEOプラグイン

SEOの専門家たちは、ChatGPTプラグインがGoogleのランキングを上げるのを助けるすばらしいツールであることに気づき始めています

AIニュース

「KPMG、AIに20億ドル以上の賭けをし、120億ドルの収益を目指す」

技術革新の急速なペースを強調する大胆な動きとして、主要なプロフェッショナルサービス企業であるKPMGは、生成型AIへの大幅...

データサイエンス

「AIベースのサイバーセキュリティがビジネスの強靭性を高める方法」

世界の50億人以上のインターネットユーザーとおよそ540億個のデバイスが、IDCによると1秒あたり3.4ペタバイトのデータを生成...

機械学習

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを...

機械学習

統合と自動化の簡素化:Boomi CTOが開発者と共有するビジョン

アイと自動化を活用した民主化された統合プラットフォームは、複雑なタスクを単純化し、持続的な進化を推進します

データサイエンス

「生成AIの組織化:データサイエンスチームから得た5つの教訓」

「経営陣が曖昧な約束をした後、新しいGen AIの機能が組織全体に組み込まれることを利害関係者に約束した後、あなたのタイガ...