「Google AIがAltUpを紹介」

美容とファッションのエキスパートがGoogle AIのAltUpを紹介!

トランスフォーマーニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボット工学、自立走行などの新興アプリケーションにおいて、驚異的な効果を示すことで注目されています。しかし、これらのモデルの規模が増大するにつれ、コンピューティングコストと推論の遅延という課題が生じています。

それに対して、実用的な計算負荷を増大させることなく、スケーラビリティを向上させる革新的なソリューションの需要が高まっています。そこで登場するのが、Google AIのAltUpです。AltUpは、計算オーバーヘッドを増加させることなく、トークン表現を拡張するために設計された新しい方法です。

Switch Transformer、Expert Choice、およびV-MoEのようなモデルは、ネットワークパラメータを効率的にスケーリングすることで進歩を遂げていますが、トークン表現の次元のスケーリングに関しては、研究のギャップが存在していました。それが、AltUpの輝点です。

AltUpの特長は、拡張された表現ベクトルを等しい大きさのブロックに分割し、各層で1つのブロックのみを処理することができることです。その効果は、予測修正メカニズムにあり、処理されていないブロックの出力を推論することを可能にします。

Google AIのブログによれば、モデルの次元を保ち、計算量の2次増加を避けることで、AltUpは大規模なトランスフォーマーネットワークによって引き起こされる課題に取り組む有望な解決策となっています。

AltUpの仕組みは、トークン埋め込みの複雑さに踏み込み、計算の複雑さを劇的に増大させることなく、それらを拡大する方法を示しています。この方法では、1つのブロックに対して1x幅のトランスフォーマーレイヤーを呼び出し、同時に軽量な予測器を使用します。

この予測器は、すべての入力ブロックの重み付きの組み合わせを計算し、軽量な修正器を介して修正され、非活性なブロックに基づいて非活性化されたブロックを更新するのに役立ちます。予測と修正の両方のステップは、最小限のベクトルの加算と乗算を含むため、従来のトランスフォーマーレイヤーよりもはるかに高速です。

T5モデルのAltUpによる評価は、同じ精度を持つ密なモデルを常に上回る能力を示しています。AltUpで拡張されたT5 Largeモデルは、GLUE、SuperGLUE、SQuAD、Trivia-QAのベンチマークで、それぞれ27%、39%、87%、29%の notableな高速化を実現しています。

特に、AltUpの相対的な性能向上は、モデルが大きくなるにつれてより顕著になり、その拡張性と効果の向上を強調しています。研究者たちが提案したAltUpの拡張であるRecycled-AltUpも、この手法の適応性を示しています。

Recycled-AltUpは、初期のトークン埋め込みを拡張する代わりに埋め込みを複製することで、知覚的な遅延を引き起こすことなく事前トレーニングのパフォーマンスを向上させます。

この論文と研究チームの貢献は、大規模なトランスフォーマーモデルをより実用的でアクセス可能なアプリケーションにするという目標に大いに寄与しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more