Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています

DeepMindの研究者は、トランスフォーマーベースのニューラルネットワークのサイズを増やすための6つの変換を提案しています

最近、トランスフォーマベースのニューラルネットワークは注目を集めています。トランスフォーマーアーキテクチャ(図1参照)は、機械翻訳、テキスト生成、質問応答など、自然言語処理の活動の中で業界標準として浮上しました。トランスフォーマベースのモデルの効果はNLPに制限されません。音声認識、コンピュータビジョン、レコメンデーションシステムなど、他のいくつかの分野でも成功を収めています。言語、ビジョン、マルチモーダルの基礎モデルは、数十億から数兆のパラメータを持つこれらのモデルの中で最も複雑で効果的です。

ただし、新しいモデルは通常、以前に学習した小さなモデルのスキルを活用せずに最初から教えられます。さらに、モデルのサイズはトレーニング中も一貫して維持されます。トレーニングに必要なトレーニングデータの量の増加により、モデルサイズの計算コストは二次的に増加します。事前学習モデルのパラメータを再利用するか、トレーニング中にモデルのサイズを動的に増やすことで、トレーニングの総コストを削減することができます。ただし、トレーニングの進捗を犠牲にすることなくこれを行うことは容易ではありません。これらの制限を解決するために、トランスフォーマベースのモデルには、機能保存パラメータ拡張変換が提供されています。

これらの変換は、モデルのサイズを増やし、その機能を変えずにモデルの潜在的な容量を増やすため、トレーニングを継続できます。これらの組み合わせ可能な変換は、アーキテクチャの独立した次元で動作し、細粒度なアーキテクチャの拡張を可能にします。以前の研究では、小さな畳み込みモデルや密なモデルのための技術を拡張したトランスフォーマベースのモデルのための機能保存パラメータ拡張変換も提案されています。

図1は、トランスフォーマーデザインに基づく典型的なニューラルネットワークの様子を示しています。

この研究では、Google DeepMindとトゥールーズ大学の研究者が、トランスフォーマアーキテクチャに適用される機能保存変換の最も包括的でモジュラーなコレクションを開発しました。この論文の6つの貢献は、トランスフォーマーアーキテクチャに適用される6つの組み合わせ可能な機能保存変換です。以下に示します。

  1. MLP内部表現のサイズ
  2. アテンションヘッドの数
  3. アテンションヘッドの出力表現のサイズ
  4. アテンション入力表現のサイズ
  5. トランスフォーマーレイヤーの入力/出力表現のサイズ
  6. レイヤーの数

著者たちは、各変換において追加パラメータの初期化に可能な制限を最小限に抑えながら、正確な機能保存性がどのように達成されるかを実証しています。これらの貢献については、論文で詳しく議論されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンス...

データサイエンス

マイクロソフトとETHチューリッヒの研究者が「HoloAssist」を紹介:物理世界の次世代AIコパイロットのためのマルチモーダルデータセット

人工知能の分野において、対話型のAIアシスタントを開発し、現実世界のタスクを効果的にナビゲートし、支援することは、ずっ...

データサイエンス

データスクレイピングが注目されています:言語モデルは皆のコンテンツをトレーニングすることで飛び越えているのでしょうか?

この記事の調査をまとめ、執筆を始めようとしたとき、OpenAIはそれにぴったりの発表を行いました彼らはChatGPTの「Browse wit...

人工知能

動くAI

「2023年はLLM(Large Language Models)の年だったとすれば、2024年はLMM(Large Multimodal Models)の年となるでしょう主...

機械学習

大規模言語モデル(LLM)とは何ですか?LLMの応用と種類

コンピュータプログラムである大規模言語モデルは、テキストの解析や作成のための新しいオプションをソフトウェアに提供しま...

AIニュース

「ビルドの学び方 — Towards AI コミュニティ ニュースレター第2号」

「最近の数日間、OpenAIのドラマを追っていないと見逃しているよ信じられないことが起こったんだ多くの従業員がOpenAIの理事...