Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています

DeepMindの研究者は、トランスフォーマーベースのニューラルネットワークのサイズを増やすための6つの変換を提案しています

最近、トランスフォーマベースのニューラルネットワークは注目を集めています。トランスフォーマーアーキテクチャ(図1参照)は、機械翻訳、テキスト生成、質問応答など、自然言語処理の活動の中で業界標準として浮上しました。トランスフォーマベースのモデルの効果はNLPに制限されません。音声認識、コンピュータビジョン、レコメンデーションシステムなど、他のいくつかの分野でも成功を収めています。言語、ビジョン、マルチモーダルの基礎モデルは、数十億から数兆のパラメータを持つこれらのモデルの中で最も複雑で効果的です。

ただし、新しいモデルは通常、以前に学習した小さなモデルのスキルを活用せずに最初から教えられます。さらに、モデルのサイズはトレーニング中も一貫して維持されます。トレーニングに必要なトレーニングデータの量の増加により、モデルサイズの計算コストは二次的に増加します。事前学習モデルのパラメータを再利用するか、トレーニング中にモデルのサイズを動的に増やすことで、トレーニングの総コストを削減することができます。ただし、トレーニングの進捗を犠牲にすることなくこれを行うことは容易ではありません。これらの制限を解決するために、トランスフォーマベースのモデルには、機能保存パラメータ拡張変換が提供されています。

これらの変換は、モデルのサイズを増やし、その機能を変えずにモデルの潜在的な容量を増やすため、トレーニングを継続できます。これらの組み合わせ可能な変換は、アーキテクチャの独立した次元で動作し、細粒度なアーキテクチャの拡張を可能にします。以前の研究では、小さな畳み込みモデルや密なモデルのための技術を拡張したトランスフォーマベースのモデルのための機能保存パラメータ拡張変換も提案されています。

図1は、トランスフォーマーデザインに基づく典型的なニューラルネットワークの様子を示しています。

この研究では、Google DeepMindとトゥールーズ大学の研究者が、トランスフォーマアーキテクチャに適用される機能保存変換の最も包括的でモジュラーなコレクションを開発しました。この論文の6つの貢献は、トランスフォーマーアーキテクチャに適用される6つの組み合わせ可能な機能保存変換です。以下に示します。

  1. MLP内部表現のサイズ
  2. アテンションヘッドの数
  3. アテンションヘッドの出力表現のサイズ
  4. アテンション入力表現のサイズ
  5. トランスフォーマーレイヤーの入力/出力表現のサイズ
  6. レイヤーの数

著者たちは、各変換において追加パラメータの初期化に可能な制限を最小限に抑えながら、正確な機能保存性がどのように達成されるかを実証しています。これらの貢献については、論文で詳しく議論されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「LLMsの実践的な導入」

「これは、実践で Large Language Models (LLMs) を使用するシリーズの最初の記事ですここでは、LLMs の紹介とそれらとの作業...

データサイエンス

このAI研究は、「ニューラルA *:パスプランニング問題のための新しいデータ駆動型検索方法」というタイトルで発表されました

パスプランニングは、環境マップ内の初期点から目標点への費用効果の高い有効なパスを特定するものです。パスプランニングの...

人工知能

AgentGPT ブラウザ内の自律型AIエージェント

あなたのAIエージェントに名前と目標を与え、割り当てられた目的を達成するのを見てください

機械学習

「検索強化生成システムのパフォーマンスを向上させるための10の方法」

LLMは素晴らしい発明ですが、1つの重要な問題がありますそれは、彼らが事実とは異なる情報を作り出すことですRAGは、LLMにク...

機械学習

「Underrepresented Groupsの存在下での学習について」

「ICML 2023で受け入れられた最新の成果をご紹介いたします『Change is Hard A Closer Look at Subpopulation Shift』という...

人工知能

「ジェネラティブAIを使用した7つのプロジェクト」

ジェネラティブAIを利用した個人プロジェクトで強力なポートフォリオを作り方を学びましょうこれにより、あなたは他の人と差...