プリンストンの研究者が、構造化プルーニングを介した言語モデルの事前トレーニングの加速のためのシャアドLLaMAモデルを紹介します
言語モデルの事前トレーニングを加速するシャアドLLaMAモデル|プリンストンの研究者が構造化プルーニングを紹介
“`
大型言語モデル(LLM)は、多様な自然言語タスクにおける優れた能力により、非常に人気が高まっています。彼らは急速に成長していますが、これらのモデルを訓練するために必要な巨大な計算リソースは大きな欠点です。その結果、LLaMA、MPT、Falconなどのよりコンパクトで効果的なLLM(Voice-operated Artificial General Intelligence)サイズのモデルの需要が高まっています。これらのモデルは、効果的な推論と微調整を提供することで、さまざまなユースケースをサポートすることを意図しています。しかし、最小の数十億パラメータLLMすら最初から訓練することは、多くの組織にとって計算リソースの観点から非常に高価です。
研究者たちは以前から、中程度の大きさのLLaMAのような大型言語モデル(LLM)よりも小さな言語モデルが同じぐらい強力であることを示してきました。これらのモデルは、訓練にはかなりの処理能力が必要な大規模なLLMに代わるより効果的な代替手段と考えられています。最近の研究では、研究チームが、大きな事前訓練済みモデルを小さなLLMに圧縮する際に成功した技術である構造化プルーニングの有用性を調査しました。この手法は、以下の2つの基本的な戦略を利用します。
- ターゲット指向の構造化プルーニング:この技術は、より大きな言語モデルからレイヤー、ヘッド、中間、隠れた次元を体系的に削除して、目標の構成に調整します。この手順は始めから終わりまで実行されるため、モデルの一貫性と機能が保たれます。重要な言語理解能力を損なうことなく、モデルを最適化します。
- ダイナミックバッチローディング:この手法は、異なるドメインの損失レベルに応じて、各バッチ内でトレーニングデータの構成を変更します。モデルは、パフォーマンスが十分に発揮されていないタスクやドメインにより集中するように、各バッチで使用されるデータサンプルを動的に変更します。この方法により、モデルは効果的にパフォーマンスを調整し、全体的な効率を向上させることができます。
Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、LLaMA2-7Bモデルのプルーニングから作成されたより小さいLLMであり、この提案された手法がどれだけ効果的であるかを示しています。このトリミング手法は、訓練セットの500億トークン、またはOpenLLaMAの事前訓練予算の5%しか消費しません。これらの欠点にもかかわらず、Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、Pythia、INCITE、OpenLLaMAなどの同様のスケールの他の有名なLLMよりも、11の典型的な下流のタスクでより良いパフォーマンスを示します。これらのタスクは、オープンエンドの生成のための命令チューニング、読解力、常識の理解、世界知識など、さまざまなトピックについて対応しています。
- スタンフォード大学とマイクロソフトの研究者が自己向上型AIを紹介:GPT-4を活用して足場プログラムのパフォーマンスを向上させる
- CMU&Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います
- 医療画像は黒い肌に失敗する研究者がそれを修正した
枝切りモデルの性能トラジェクトリーに基づくと、より多くのトークンでの追加トレーニングもさらなる利益の増大につながる可能性があります。現在の研究の試験は、最大7,000,000,000パラメータを持つモデルに限定されていますが、LLM枝切り技術は高い一般化可能性を備え、将来の調査では任意の大きさの大型言語モデルを含むことができます。
要するに、LLM枝切りは、ダイナミックバッチローディングと重点的な構造化プルーニングを活用したLLMのサイズ削減の包括的なアプローチを提供します。同等のサイズのモデルよりも多様な下流のタスクで優れたパフォーマンスを発揮するSheared-LaMAモデルの構築は、それの効果を実証しています。この手法は、より効果的かつ経済的な小さなが強力なLLMを開発する方法を示し、様々なモデルサイズに利用できます。
“`
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「ハリー・ポッターとは誰なのか?Microsoft ResearchのLLMの概念の忘却を精緻化する方法の内部」
- 「言語モデルがプログラマーを置き換えることはできるのか? プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」
- 「イェール大学とGoogleの研究者が、効率的な長距離シーケンス処理のために大規模言語モデルを迅速に加速する近似Attentionメカニズム、HyperAttentionを紹介する」という文章です
- この人工知能による調査研究は、医療領域への大規模言語モデルの包括的な概要を提供します
- このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です
- アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新
- 「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」