Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています

DeepMindの研究者は、トランスフォーマーベースのニューラルネットワークのサイズを増やすための6つの変換を提案しています

最近、トランスフォーマベースのニューラルネットワークは注目を集めています。トランスフォーマーアーキテクチャ(図1参照)は、機械翻訳、テキスト生成、質問応答など、自然言語処理の活動の中で業界標準として浮上しました。トランスフォーマベースのモデルの効果はNLPに制限されません。音声認識、コンピュータビジョン、レコメンデーションシステムなど、他のいくつかの分野でも成功を収めています。言語、ビジョン、マルチモーダルの基礎モデルは、数十億から数兆のパラメータを持つこれらのモデルの中で最も複雑で効果的です。

ただし、新しいモデルは通常、以前に学習した小さなモデルのスキルを活用せずに最初から教えられます。さらに、モデルのサイズはトレーニング中も一貫して維持されます。トレーニングに必要なトレーニングデータの量の増加により、モデルサイズの計算コストは二次的に増加します。事前学習モデルのパラメータを再利用するか、トレーニング中にモデルのサイズを動的に増やすことで、トレーニングの総コストを削減することができます。ただし、トレーニングの進捗を犠牲にすることなくこれを行うことは容易ではありません。これらの制限を解決するために、トランスフォーマベースのモデルには、機能保存パラメータ拡張変換が提供されています。

これらの変換は、モデルのサイズを増やし、その機能を変えずにモデルの潜在的な容量を増やすため、トレーニングを継続できます。これらの組み合わせ可能な変換は、アーキテクチャの独立した次元で動作し、細粒度なアーキテクチャの拡張を可能にします。以前の研究では、小さな畳み込みモデルや密なモデルのための技術を拡張したトランスフォーマベースのモデルのための機能保存パラメータ拡張変換も提案されています。

図1は、トランスフォーマーデザインに基づく典型的なニューラルネットワークの様子を示しています。

この研究では、Google DeepMindとトゥールーズ大学の研究者が、トランスフォーマアーキテクチャに適用される機能保存変換の最も包括的でモジュラーなコレクションを開発しました。この論文の6つの貢献は、トランスフォーマーアーキテクチャに適用される6つの組み合わせ可能な機能保存変換です。以下に示します。

  1. MLP内部表現のサイズ
  2. アテンションヘッドの数
  3. アテンションヘッドの出力表現のサイズ
  4. アテンション入力表現のサイズ
  5. トランスフォーマーレイヤーの入力/出力表現のサイズ
  6. レイヤーの数

著者たちは、各変換において追加パラメータの初期化に可能な制限を最小限に抑えながら、正確な機能保存性がどのように達成されるかを実証しています。これらの貢献については、論文で詳しく議論されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「このディスインフォメーションはあなたのためだけです」

生成AIは単にインターネットをより多くの嘘で満たすだけではありません-それはまた、特定のグループや個人をターゲットにした...

機械学習

セールスフォースAIがGlueGenを導入:効率的なエンコーダのアップグレードとマルチモーダル機能により、テキストから画像へのモデルが革新的になります

テキストから画像への変換(T2I)モデルの急速に進化する風景の中で、GlueGenの導入により新たなフロンティアが現れています...

AI研究

材料研究を革新するための機械学習の活用

素材科学の領域では、研究者は原子スケールで物質の複雑な振る舞いを解明するという大きな課題に直面しています。イネラステ...

機械学習

NVIDIA H100 GPUがMLPerfベンチマークのデビューで生成型AIの標準を設定

主要のユーザーと業界標準のベンチマークによれば、NVIDIAのH100 Tensor Core GPUは特に生成型AIを駆動する大規模言語モデル...

AI研究

AIモデルが高解像度のコンピュータビジョンを高速化します

システムは、ビデオストリーミングにおける画像品質の向上や、自動運転車両がリアルタイムで道路の危険を識別するのに役立つ...

AI研究

宇宙からの詳細な画像は、植物に対する干ばつの影響をより明確に示します

J-WAFSの研究者たちは、遠隔センシング観測を利用して、干ばつを監視するための高解像度システムを構築しています