Google AIは、『AltUp(Alternating Updates)』というアートフィシャルインテリジェンスの手法を導入しましたこれは、トランスフォーマーネットワークのスケールの拡大を利用するための手法であり、計算コストを増やさずに行われます

Google AIのアルトアップ(Alternating Updates):トランスフォーマーネットワークのスケールを拡大する新手法

ディープラーニングにおいて、トランスフォーマーニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボティクス、自動運転などの新興アプリケーションを含め、さまざまなドメインでの有効性に対して注目を集めています。ただし、パフォーマンスの向上に伴い、これらのモデルの規模がますます拡大することで、計算コストと推論遅延が大幅に増加します。大規模なモデルの利点を享受する際に、実用上の計算負荷をもたらさないような困難が存在します。

特にトランスフォーマーモデルを含むディープラーニングモデルの現在の状況は、さまざまな領域で著しい進歩を示しています。ただし、増加した計算要件により、これらのモデルのスケーラビリティを向上させる必要がある場合があります。従来の取り組みは、Switch Transformer、Expert Choice、V-MoEなど、スパース混合専門家モデルによって示されるように、ネットワークパラメータの効率的なスケーリングや入力あたりの計算の増加を軽減することに主に焦点を当ててきました。ただし、トークン表現の次元自体のスケーリングに関する研究上の課題が存在します。ここで、この課題を解決するために導入された新しい方法であるAltUpが登場します。

AltUpは、計算のオーバーヘッドを増やさずにトークン表現を拡張する方法を提供することで際立っています。この方法では、拡張された表現ベクトルを等しいサイズのブロックに分割し、各層で1つのブロックのみを処理します。AltUpの有効性の核心は、処理されていないブロックの推論を可能にする予測-訂正メカニズムにあります。直接的な拡張に伴う計算量の二次的な増加を回避することで、モデルの次元を維持しながら、AltUpは、より大きなTransformerネットワークによってもたらされる計算上の課題に対する有望な解決策として浮上しています。

AltUpのメカニズムは、トークン埋め込みの複雑さに深く入り込み、計算の複雑さを増やさずにトークン表現を拡張する方法を検討しています。この方法は以下の手順で行われます:

  • ブロックの1x幅トランスフォーマーレイヤーを呼び出します。
  • 「アクティブ」ブロックと呼ばれます。
  • 同時に軽量な予測子を使用します。

この予測子は、すべての入力ブロックの重み付き組み合わせを計算し、予測値と活性化されたブロックの計算値は、軽量な修正子を介して修正されます。この修正メカニズムにより、非活性なブロックは活性化されたブロックに基づいて更新されます。重要なのは、予測と修正のステップの両方が、通常のトランスフォーマーレイヤーよりもはるかに高速なベクトルの加算と乗算を必要としないということです。

T5モデルに対するAltUpの評価は、同じ精度で密なモデルを上回る一貫した能力を示しています。特に、AltUpで拡張されたT5ラージモデルは、GLUE、SuperGLUE、SQuAD、Trivia-QAの各ベンチマークで、それぞれ27%、39%、87%、29%の著しいスピードアップを実現しています。AltUpの相対的な性能向上は、モデルのサイズが大きくなるにつれてより顕著になり、スケーラビリティと向上した効果を強調しています。

AltUpは、Transformerニューラルネットワークの効率的なスケーリングアップの長年の課題に対する注目すべき解決策として浮上しています。計算コストの比例的な増加を伴わずにトークン表現を拡張する能力は、さまざまなアプリケーションにおいて重要な約束を持っています。AltUpの革新的なアプローチは、分割と予測-訂正メカニズムを特徴とし、大きなモデルの利点を活用するための現実的な方法を提供します。計算要求に適しています。

研究者たちによるAltUpの拡張であるRecycled-AltUpは、提案された手法の適応性をさらに示しています。初期トークンの埋め込みを広げる代わりに、再現埋め込みによってRecycled-AltUpは、認識可能な遅延を引き起こすことなく、事前学習パフォーマンスの厳格な改善を示しています。AltUpとMoEのような他のテクニックとのシームレスな統合を伴うこの二重アプローチは、その多様性を具現化し、トレーニングとモデルのパフォーマンスのダイナミクスを探求するための将来的な研究の可能性を開いています。

AltUpは、Transformerネットワークの効率的なスケーリングの追求における画期的なものであり、モデルのサイズと計算効率のトレードオフに対する魅力的な解決策を提供しています。この論文で述べられているように、研究チームの貢献は、大規模なTransformerモデルをさまざまな応用によりアクセス可能で実用的なものにするための重要な一歩です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AIが顧客がAmazonでより良いショッピングをするのを支援している方法」

顧客のレビューは、オンラインショッピングの基盤となり、購入前に貴重なインサイトを提供することで、購入者に力を与えてい...

機械学習

このAIニュースレターは、あなたが必要とするすべてです#62

今週は、METAのコーディングモデルの開発とOpenAIの新しいファインチューニング機能の進展を見てきましたMetaは、Code LLaMA...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...

データサイエンス

「ゼロからLLMを構築する方法」

「これは、大規模言語モデル(LLM)を実践的に使用するシリーズの6番目の記事です以前の記事では、プロンプトエンジニアリン...

機械学習

ラストマイルAIは、AiConfigをリリースしました:オープンソースの構成駆動型、ソースコントロールに対応したAIアプリケーション開発フレームワーク

AIアプリケーション開発の進化する風景の中で、AI Configは、LastMile Ai から登場し、開発者がAIモデルを統合し、管理する方...

データサイエンス

「量子もつれ測定の革命:限られたデータで深層学習が従来の方法を上回る方法」

系統の量子もつれの程度は、系統のランダム性や量子もつれの係数など、さまざまな要素に依存します。この系統の特性は、機械...