Google AIは、『AltUp(Alternating Updates)』というアートフィシャルインテリジェンスの手法を導入しましたこれは、トランスフォーマーネットワークのスケールの拡大を利用するための手法であり、計算コストを増やさずに行われます

Google AIのアルトアップ(Alternating Updates):トランスフォーマーネットワークのスケールを拡大する新手法

ディープラーニングにおいて、トランスフォーマーニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボティクス、自動運転などの新興アプリケーションを含め、さまざまなドメインでの有効性に対して注目を集めています。ただし、パフォーマンスの向上に伴い、これらのモデルの規模がますます拡大することで、計算コストと推論遅延が大幅に増加します。大規模なモデルの利点を享受する際に、実用上の計算負荷をもたらさないような困難が存在します。

特にトランスフォーマーモデルを含むディープラーニングモデルの現在の状況は、さまざまな領域で著しい進歩を示しています。ただし、増加した計算要件により、これらのモデルのスケーラビリティを向上させる必要がある場合があります。従来の取り組みは、Switch Transformer、Expert Choice、V-MoEなど、スパース混合専門家モデルによって示されるように、ネットワークパラメータの効率的なスケーリングや入力あたりの計算の増加を軽減することに主に焦点を当ててきました。ただし、トークン表現の次元自体のスケーリングに関する研究上の課題が存在します。ここで、この課題を解決するために導入された新しい方法であるAltUpが登場します。

AltUpは、計算のオーバーヘッドを増やさずにトークン表現を拡張する方法を提供することで際立っています。この方法では、拡張された表現ベクトルを等しいサイズのブロックに分割し、各層で1つのブロックのみを処理します。AltUpの有効性の核心は、処理されていないブロックの推論を可能にする予測-訂正メカニズムにあります。直接的な拡張に伴う計算量の二次的な増加を回避することで、モデルの次元を維持しながら、AltUpは、より大きなTransformerネットワークによってもたらされる計算上の課題に対する有望な解決策として浮上しています。

AltUpのメカニズムは、トークン埋め込みの複雑さに深く入り込み、計算の複雑さを増やさずにトークン表現を拡張する方法を検討しています。この方法は以下の手順で行われます:

  • ブロックの1x幅トランスフォーマーレイヤーを呼び出します。
  • 「アクティブ」ブロックと呼ばれます。
  • 同時に軽量な予測子を使用します。

この予測子は、すべての入力ブロックの重み付き組み合わせを計算し、予測値と活性化されたブロックの計算値は、軽量な修正子を介して修正されます。この修正メカニズムにより、非活性なブロックは活性化されたブロックに基づいて更新されます。重要なのは、予測と修正のステップの両方が、通常のトランスフォーマーレイヤーよりもはるかに高速なベクトルの加算と乗算を必要としないということです。

T5モデルに対するAltUpの評価は、同じ精度で密なモデルを上回る一貫した能力を示しています。特に、AltUpで拡張されたT5ラージモデルは、GLUE、SuperGLUE、SQuAD、Trivia-QAの各ベンチマークで、それぞれ27%、39%、87%、29%の著しいスピードアップを実現しています。AltUpの相対的な性能向上は、モデルのサイズが大きくなるにつれてより顕著になり、スケーラビリティと向上した効果を強調しています。

AltUpは、Transformerニューラルネットワークの効率的なスケーリングアップの長年の課題に対する注目すべき解決策として浮上しています。計算コストの比例的な増加を伴わずにトークン表現を拡張する能力は、さまざまなアプリケーションにおいて重要な約束を持っています。AltUpの革新的なアプローチは、分割と予測-訂正メカニズムを特徴とし、大きなモデルの利点を活用するための現実的な方法を提供します。計算要求に適しています。

研究者たちによるAltUpの拡張であるRecycled-AltUpは、提案された手法の適応性をさらに示しています。初期トークンの埋め込みを広げる代わりに、再現埋め込みによってRecycled-AltUpは、認識可能な遅延を引き起こすことなく、事前学習パフォーマンスの厳格な改善を示しています。AltUpとMoEのような他のテクニックとのシームレスな統合を伴うこの二重アプローチは、その多様性を具現化し、トレーニングとモデルのパフォーマンスのダイナミクスを探求するための将来的な研究の可能性を開いています。

AltUpは、Transformerネットワークの効率的なスケーリングの追求における画期的なものであり、モデルのサイズと計算効率のトレードオフに対する魅力的な解決策を提供しています。この論文で述べられているように、研究チームの貢献は、大規模なTransformerモデルをさまざまな応用によりアクセス可能で実用的なものにするための重要な一歩です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「リトリーバル増強生成によるジェネラティブAIの最適化:アーキテクチャ、アルゴリズム、およびアプリケーションの概要」

この記事はAIの専門家を対象にし、AIのアーキテクチャー、トレーニング、そして応用に焦点を当てて検討します

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

人工知能

ネットワークの強化:異常検出のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そして深層学習技術が、異常を精度良く検出することでネットワークセキュリティを向上させる方法を発...

AIニュース

AIサージ:Stability AIのCEOは、2年以内にインドの開発者に仕事の喪失を予測します

AIの革命が進む中、世界はその影響に関する潜在的な利益と懸念を目撃しています。AIブームの中で、Stability AIのCEOであるエ...

機械学習

「AIアクトの解読」

AI法 [1]は、長く苦痛な過程を経て形成されましたこれは、ヨーロッパの立法プロセスにおける政治の影響と重要性を完璧に示す...

AIニュース

「オートジェンへの参入:マルチエージェントフレームワークの基礎を探索する」

イントロダクション 「自動生成に飛び込む:マルチエージェントフレームワークの基礎を探る」というテーマでソフトウェア開発...