プリンストンの研究者が、構造化プルーニングを介した言語モデルの事前トレーニングの加速のためのシャアドLLaMAモデルを紹介します

言語モデルの事前トレーニングを加速するシャアドLLaMAモデル|プリンストンの研究者が構造化プルーニングを紹介

“`

大型言語モデル(LLM)は、多様な自然言語タスクにおける優れた能力により、非常に人気が高まっています。彼らは急速に成長していますが、これらのモデルを訓練するために必要な巨大な計算リソースは大きな欠点です。その結果、LLaMA、MPT、Falconなどのよりコンパクトで効果的なLLM(Voice-operated Artificial General Intelligence)サイズのモデルの需要が高まっています。これらのモデルは、効果的な推論と微調整を提供することで、さまざまなユースケースをサポートすることを意図しています。しかし、最小の数十億パラメータLLMすら最初から訓練することは、多くの組織にとって計算リソースの観点から非常に高価です。

研究者たちは以前から、中程度の大きさのLLaMAのような大型言語モデル(LLM)よりも小さな言語モデルが同じぐらい強力であることを示してきました。これらのモデルは、訓練にはかなりの処理能力が必要な大規模なLLMに代わるより効果的な代替手段と考えられています。最近の研究では、研究チームが、大きな事前訓練済みモデルを小さなLLMに圧縮する際に成功した技術である構造化プルーニングの有用性を調査しました。この手法は、以下の2つの基本的な戦略を利用します。

  1. ターゲット指向の構造化プルーニング:この技術は、より大きな言語モデルからレイヤー、ヘッド、中間、隠れた次元を体系的に削除して、目標の構成に調整します。この手順は始めから終わりまで実行されるため、モデルの一貫性と機能が保たれます。重要な言語理解能力を損なうことなく、モデルを最適化します。
  1. ダイナミックバッチローディング:この手法は、異なるドメインの損失レベルに応じて、各バッチ内でトレーニングデータの構成を変更します。モデルは、パフォーマンスが十分に発揮されていないタスクやドメインにより集中するように、各バッチで使用されるデータサンプルを動的に変更します。この方法により、モデルは効果的にパフォーマンスを調整し、全体的な効率を向上させることができます。

Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、LLaMA2-7Bモデルのプルーニングから作成されたより小さいLLMであり、この提案された手法がどれだけ効果的であるかを示しています。このトリミング手法は、訓練セットの500億トークン、またはOpenLLaMAの事前訓練予算の5%しか消費しません。これらの欠点にもかかわらず、Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、Pythia、INCITE、OpenLLaMAなどの同様のスケールの他の有名なLLMよりも、11の典型的な下流のタスクでより良いパフォーマンスを示します。これらのタスクは、オープンエンドの生成のための命令チューニング、読解力、常識の理解、世界知識など、さまざまなトピックについて対応しています。

枝切りモデルの性能トラジェクトリーに基づくと、より多くのトークンでの追加トレーニングもさらなる利益の増大につながる可能性があります。現在の研究の試験は、最大7,000,000,000パラメータを持つモデルに限定されていますが、LLM枝切り技術は高い一般化可能性を備え、将来の調査では任意の大きさの大型言語モデルを含むことができます。

要するに、LLM枝切りは、ダイナミックバッチローディングと重点的な構造化プルーニングを活用したLLMのサイズ削減の包括的なアプローチを提供します。同等のサイズのモデルよりも多様な下流のタスクで優れたパフォーマンスを発揮するSheared-LaMAモデルの構築は、それの効果を実証しています。この手法は、より効果的かつ経済的な小さなが強力なLLMを開発する方法を示し、様々なモデルサイズに利用できます。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「2023年のトップデータウェアハウジングツール」

データウェアハウスは、データの報告、分析、および保存のためのデータ管理システムです。それはエンタープライズデータウェ...

AI研究

MITとMeta AIからのこのAI研究は、高度なリアルタイムのロボットにおける手でのオブジェクト再配置のための革新的かつ手ごろな価格のコントローラーを発表します

MITとMeta AIの研究者は、単一の深度カメラを使用して、多様な形状のオブジェクトをリアルタイムに再配置するオブジェクト再...

AI研究

腫瘍の起源の解読:MITとDana-Farber研究者が機械学習を活用して遺伝子配列を分析する方法

MITとDana-Farber Cancer Instituteの画期的な共同研究により、機械学習の力ががん治療における困難な課題に取り組むために活...

AI研究

ソフトウェア開発活動のための大規模シーケンスモデル

Google の研究科学者である Petros Maniatis と Daniel Tarlow が投稿しました。 ソフトウェアは一度に作られるわけではあり...

機械学習

マイクロソフトは、エンタープライズ向けにカスタマイズされたAzure ChatGPTを発表しました

I had trouble accessing your link so I’m going to try to continue without it. Microsoft Azure ChatGPTは、ネット...

機械学習

「DAE Talking 高忠実度音声駆動の話し相手生成における拡散オートエンコーダー」

今日は、新しい論文と、私が出会った中で最高品質の音声駆動ディープフェイクモデルについて話し合いますマイクロソフトリサ...