Wandaとは:大規模言語モデルに対するシンプルで効果的なプルーニング手法の紹介

Wanda Introduction to a simple and effective pruning method for large-scale language models.

大きな言語モデル(LLM)の人気と使用率は絶えず高まっています。生成型人工知能の分野での巨大な成功を受けて、これらのモデルは大規模な経済的および社会的変革をもたらしています。最新のLLMのトレンドの一つは、OpenAIが開発したチャットボットであるChatGPTです。ChatGPTは人間を模倣し、リリース以来何百万人ものユーザーに利用されています。自然言語処理と自然言語理解に基づいて構築されたChatGPTは、質問に答えたり、ユニークで創造的なコンテンツを生成したり、長いテキストを要約したり、コードやメールを補完したりすることができます。

パラメータの数が非常に多いLLMは、多くの計算リソースを要求します。これを軽減するために、モデルの量子化やネットワークの剪定などの手法が使用されています。モデルの量子化は、LLMのパラメータのビットレベル表現を削減するプロセスです。一方、ネットワークの剪定は、特定の重みを削除してニューラルネットワークのサイズを縮小することを目指します。ただし、現在のアプローチでは、再トレーニング、ゼロからのトレーニング、または反復プロセスには膨大な計算リソースが必要なため、LLMの剪定には焦点が当てられていません。

これらの制約を克服するために、カーネギーメロン大学、FAIR、Meta AI、Bosch Center for AIの研究者らは、Wanda(重みと活性化による剪定)と呼ばれる剪定手法を提案しました。LLMが顕著な大きな特徴を示すという研究に着想を得て、Wandaは再トレーニングや重みの更新を必要とせずに、事前学習済みのLLMに疎さをもたらします。Wandaでは、最も小さな大きさの重みは、適切な入力活性化との乗算に基づいて剪定されます。また、重みは各モデルの出力ごとに独立して評価されます。

Wandaは再トレーニングや重みの更新を必要とせずにうまく機能し、剪定されたLLMは即座に推論に適用されます。研究では、LLMの非常にわずかな割合の隠れ状態特徴が非常に大きな大きさを持つことがわかりました。この発見を基に、チームは従来の重みの大きさの剪定指標に入力活性化を追加することで、重みの重要性を驚くほど正確に評価できることを発見しました。

最も成功したオープンソースのLLMファミリーであるLLaMAを使用して、チームはWandaを実証的に評価しました。その結果、Wandaは再トレーニングや重みの更新を必要とせずに、事前学習済みのLLMから効率的な疎なネットワークを正確に特定できることが示されました。Wandaは大規模なGPTファミリーモデルに正確に機能する最近提案されたLLMの剪定手法であるSparseGPTの性能を上回り、または追い越すこともありました。

まとめると、WandaはLLMの剪定の課題に対処するための有望な手法のようであり、LLMの疎さを理解するためのさらなる探求を促すことで、将来の研究の基準を提供しています。剪定技術を通じてLLMの効率性と利用可能性を向上させることにより、自然言語処理の分野での進歩を続け、これらの強力なモデルをより実用的かつ広範に活用できるようにすることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ディープラーニングによる触媒性能の秘密の解明:異種触媒の高精度スクリーニングのための「グローバル+ローカル」畳み込みニューラルネットワークのディープダイブ

触媒の表面の形状が、触媒のさまざまな特性によって特定の化学反応に影響を与えるため、私たちは表面化学でこれらの効果を研...

AIテクノロジー

2023年に使用するための11つのAIビデオジェネレータ:テキストからビデオへの変換

AIの最も注目すべき表現の一つは、AIビデオジェネレーターの登場です。これにより、テキストとビジュアルの間の隔たりをなく...

AIニュース

マルチモーダルAI:見て聞くことができる人工知能

人工知能(AI)はその創始以来、長い道のりを歩んできましたが、最近まで、その能力はテキストベースのコミュニケーションと...

AIニュース

ショッピファイの従業員がAIによるレイオフと顧客サービスの危機を暴露

Twitter上での衝撃的な暴露により、勇敢なShopifyの従業員が非開示契約(NDA)を破り、同社の物議を醸す行動と戦略的方向性に...

AIニュース

(sekai no toppu 10 no sōsei AI sutātappu)

はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャ...

人工知能

「ソフトウェアテストの革命化」

AIが自動ソフトウェアテストに与える深遠な影響を掘り下げ、その能力、利点、およびSQAの将来における持つ可能性について探求...