プリンストンの研究者が、構造化プルーニングを介した言語モデルの事前トレーニングの加速のためのシャアドLLaMAモデルを紹介します

言語モデルの事前トレーニングを加速するシャアドLLaMAモデル|プリンストンの研究者が構造化プルーニングを紹介

“`

大型言語モデル(LLM)は、多様な自然言語タスクにおける優れた能力により、非常に人気が高まっています。彼らは急速に成長していますが、これらのモデルを訓練するために必要な巨大な計算リソースは大きな欠点です。その結果、LLaMA、MPT、Falconなどのよりコンパクトで効果的なLLM(Voice-operated Artificial General Intelligence)サイズのモデルの需要が高まっています。これらのモデルは、効果的な推論と微調整を提供することで、さまざまなユースケースをサポートすることを意図しています。しかし、最小の数十億パラメータLLMすら最初から訓練することは、多くの組織にとって計算リソースの観点から非常に高価です。

研究者たちは以前から、中程度の大きさのLLaMAのような大型言語モデル(LLM)よりも小さな言語モデルが同じぐらい強力であることを示してきました。これらのモデルは、訓練にはかなりの処理能力が必要な大規模なLLMに代わるより効果的な代替手段と考えられています。最近の研究では、研究チームが、大きな事前訓練済みモデルを小さなLLMに圧縮する際に成功した技術である構造化プルーニングの有用性を調査しました。この手法は、以下の2つの基本的な戦略を利用します。

  1. ターゲット指向の構造化プルーニング:この技術は、より大きな言語モデルからレイヤー、ヘッド、中間、隠れた次元を体系的に削除して、目標の構成に調整します。この手順は始めから終わりまで実行されるため、モデルの一貫性と機能が保たれます。重要な言語理解能力を損なうことなく、モデルを最適化します。
  1. ダイナミックバッチローディング:この手法は、異なるドメインの損失レベルに応じて、各バッチ内でトレーニングデータの構成を変更します。モデルは、パフォーマンスが十分に発揮されていないタスクやドメインにより集中するように、各バッチで使用されるデータサンプルを動的に変更します。この方法により、モデルは効果的にパフォーマンスを調整し、全体的な効率を向上させることができます。

Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、LLaMA2-7Bモデルのプルーニングから作成されたより小さいLLMであり、この提案された手法がどれだけ効果的であるかを示しています。このトリミング手法は、訓練セットの500億トークン、またはOpenLLaMAの事前訓練予算の5%しか消費しません。これらの欠点にもかかわらず、Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、Pythia、INCITE、OpenLLaMAなどの同様のスケールの他の有名なLLMよりも、11の典型的な下流のタスクでより良いパフォーマンスを示します。これらのタスクは、オープンエンドの生成のための命令チューニング、読解力、常識の理解、世界知識など、さまざまなトピックについて対応しています。

枝切りモデルの性能トラジェクトリーに基づくと、より多くのトークンでの追加トレーニングもさらなる利益の増大につながる可能性があります。現在の研究の試験は、最大7,000,000,000パラメータを持つモデルに限定されていますが、LLM枝切り技術は高い一般化可能性を備え、将来の調査では任意の大きさの大型言語モデルを含むことができます。

要するに、LLM枝切りは、ダイナミックバッチローディングと重点的な構造化プルーニングを活用したLLMのサイズ削減の包括的なアプローチを提供します。同等のサイズのモデルよりも多様な下流のタスクで優れたパフォーマンスを発揮するSheared-LaMAモデルの構築は、それの効果を実証しています。この手法は、より効果的かつ経済的な小さなが強力なLLMを開発する方法を示し、様々なモデルサイズに利用できます。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

グーグルシートでChatGPTを利用する方法

紹介 Google Sheetsは、広範で知名度の高いスプレッドシートアプリケーションです。長年にわたり、データ管理と分析のための...

機械学習

AWS上で動作する深層学習ベースの先進運転支援システムのための自動ラベリングモジュール

コンピュータビジョン(CV)では、興味のあるオブジェクトを識別するためのタグを追加したり、オブジェクトの位置を特定する...

機械学習

「AIは本当に低品質な画像から顔の詳細を復元できるのでしょうか? DAEFRとは何か:品質向上のためのデュアルブランチフレームワークに出会う」

画像処理の分野では、劣化した顔写真から高精細な情報を回復することは依然として困難な課題です。これらの画像が受ける多く...

機械学習

もし、口頭および書面によるコミュニケーションが人間の知能を発展させたのであれば... 言語モデルは一体どうなっているのでしょうか?

人間の知能は、その非凡な認知能力によって、他の種に比べて比類のない存在ですこの知的優位性の原動力は、言語の出現に遡る...

データサイエンス

「拡散を通じた適応学習:先進のパラダイム」

イントロダクション 教育と機械学習のダイナミックな風景において、適応学習を通じた拡散はパラダイムシフトを示しています。...