Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています

DeepMindの研究者は、トランスフォーマーベースのニューラルネットワークのサイズを増やすための6つの変換を提案しています

最近、トランスフォーマベースのニューラルネットワークは注目を集めています。トランスフォーマーアーキテクチャ(図1参照)は、機械翻訳、テキスト生成、質問応答など、自然言語処理の活動の中で業界標準として浮上しました。トランスフォーマベースのモデルの効果はNLPに制限されません。音声認識、コンピュータビジョン、レコメンデーションシステムなど、他のいくつかの分野でも成功を収めています。言語、ビジョン、マルチモーダルの基礎モデルは、数十億から数兆のパラメータを持つこれらのモデルの中で最も複雑で効果的です。

ただし、新しいモデルは通常、以前に学習した小さなモデルのスキルを活用せずに最初から教えられます。さらに、モデルのサイズはトレーニング中も一貫して維持されます。トレーニングに必要なトレーニングデータの量の増加により、モデルサイズの計算コストは二次的に増加します。事前学習モデルのパラメータを再利用するか、トレーニング中にモデルのサイズを動的に増やすことで、トレーニングの総コストを削減することができます。ただし、トレーニングの進捗を犠牲にすることなくこれを行うことは容易ではありません。これらの制限を解決するために、トランスフォーマベースのモデルには、機能保存パラメータ拡張変換が提供されています。

これらの変換は、モデルのサイズを増やし、その機能を変えずにモデルの潜在的な容量を増やすため、トレーニングを継続できます。これらの組み合わせ可能な変換は、アーキテクチャの独立した次元で動作し、細粒度なアーキテクチャの拡張を可能にします。以前の研究では、小さな畳み込みモデルや密なモデルのための技術を拡張したトランスフォーマベースのモデルのための機能保存パラメータ拡張変換も提案されています。

図1は、トランスフォーマーデザインに基づく典型的なニューラルネットワークの様子を示しています。

この研究では、Google DeepMindとトゥールーズ大学の研究者が、トランスフォーマアーキテクチャに適用される機能保存変換の最も包括的でモジュラーなコレクションを開発しました。この論文の6つの貢献は、トランスフォーマーアーキテクチャに適用される6つの組み合わせ可能な機能保存変換です。以下に示します。

  1. MLP内部表現のサイズ
  2. アテンションヘッドの数
  3. アテンションヘッドの出力表現のサイズ
  4. アテンション入力表現のサイズ
  5. トランスフォーマーレイヤーの入力/出力表現のサイズ
  6. レイヤーの数

著者たちは、各変換において追加パラメータの初期化に可能な制限を最小限に抑えながら、正確な機能保存性がどのように達成されるかを実証しています。これらの貢献については、論文で詳しく議論されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ソウル国立大学の研究者たちは、ディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成において、画期的なAI手法であるLucidDreamerを紹介します

商業的で混合現実プラットフォームの開発と、3Dグラフィックス技術の急速な進歩により、高品質な3Dシーンの作成はコンピュー...

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...

人工知能

シートベルトを締めてください:ファルコン180Bが登場しました!

「世界最大のオープンな言語モデルの世界に飛び込んでみましょう」

機械学習

アイドルアプリの自動シャットダウンを使用して、Amazon SageMaker Canvasのコストを最適化する

『Amazon SageMaker Canvas』は、豊富なノーコードの機械学習(ML)と生成型AIのワークスペースで、視覚的かつノーコードのイ...

AI研究

「UCLAの研究者が提案するPhyCV:物理に触発されたコンピュータビジョンのPythonライブラリ」

人工知能はコンピュータビジョンの分野で注目すべき進歩を遂げています。その中でも、ディープラーニングという分野では、大...