Wandaとは:大規模言語モデルに対するシンプルで効果的なプルーニング手法の紹介

Wanda Introduction to a simple and effective pruning method for large-scale language models.

大きな言語モデル(LLM)の人気と使用率は絶えず高まっています。生成型人工知能の分野での巨大な成功を受けて、これらのモデルは大規模な経済的および社会的変革をもたらしています。最新のLLMのトレンドの一つは、OpenAIが開発したチャットボットであるChatGPTです。ChatGPTは人間を模倣し、リリース以来何百万人ものユーザーに利用されています。自然言語処理と自然言語理解に基づいて構築されたChatGPTは、質問に答えたり、ユニークで創造的なコンテンツを生成したり、長いテキストを要約したり、コードやメールを補完したりすることができます。

パラメータの数が非常に多いLLMは、多くの計算リソースを要求します。これを軽減するために、モデルの量子化やネットワークの剪定などの手法が使用されています。モデルの量子化は、LLMのパラメータのビットレベル表現を削減するプロセスです。一方、ネットワークの剪定は、特定の重みを削除してニューラルネットワークのサイズを縮小することを目指します。ただし、現在のアプローチでは、再トレーニング、ゼロからのトレーニング、または反復プロセスには膨大な計算リソースが必要なため、LLMの剪定には焦点が当てられていません。

これらの制約を克服するために、カーネギーメロン大学、FAIR、Meta AI、Bosch Center for AIの研究者らは、Wanda(重みと活性化による剪定)と呼ばれる剪定手法を提案しました。LLMが顕著な大きな特徴を示すという研究に着想を得て、Wandaは再トレーニングや重みの更新を必要とせずに、事前学習済みのLLMに疎さをもたらします。Wandaでは、最も小さな大きさの重みは、適切な入力活性化との乗算に基づいて剪定されます。また、重みは各モデルの出力ごとに独立して評価されます。

Wandaは再トレーニングや重みの更新を必要とせずにうまく機能し、剪定されたLLMは即座に推論に適用されます。研究では、LLMの非常にわずかな割合の隠れ状態特徴が非常に大きな大きさを持つことがわかりました。この発見を基に、チームは従来の重みの大きさの剪定指標に入力活性化を追加することで、重みの重要性を驚くほど正確に評価できることを発見しました。

最も成功したオープンソースのLLMファミリーであるLLaMAを使用して、チームはWandaを実証的に評価しました。その結果、Wandaは再トレーニングや重みの更新を必要とせずに、事前学習済みのLLMから効率的な疎なネットワークを正確に特定できることが示されました。Wandaは大規模なGPTファミリーモデルに正確に機能する最近提案されたLLMの剪定手法であるSparseGPTの性能を上回り、または追い越すこともありました。

まとめると、WandaはLLMの剪定の課題に対処するための有望な手法のようであり、LLMの疎さを理解するためのさらなる探求を促すことで、将来の研究の基準を提供しています。剪定技術を通じてLLMの効率性と利用可能性を向上させることにより、自然言語処理の分野での進歩を続け、これらの強力なモデルをより実用的かつ広範に活用できるようにすることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AI企業がソフトウェア供給チェーンの脆弱性に対して被害を受けた場合、何が起こるのか」

OpenAIの侵害を見て、AI企業SSCのハッキングとその可能な影響を推測する自分自身を守るために何ができるか?

機械学習

マイクロソフトAIがLLMLinguaを発表:大型言語モデル(LLM)の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

大規模言語モデル(LLM)は、その高い一般化能力と推論能力により、人工知能(AI)コミュニティを大きく押し上げています。こ...

データサイエンス

「画像のためのモダンなセマンティック検索」

「数年前の「あの一枚の写真」を見つけたいんですね場面に関するいくつかの具体的な情報を覚えているんですが、Apple Photos...

AIニュース

「AIサイバーセキュリティのスタートアップ企業、ヨーロッパと今度はアメリカからも、参集!」

新しいGoogle for Startups成長アカデミーの開始:ヨーロッパとアメリカに拠点を置く企業のためのAIセキュリティプログラムの...

機械学習

ベイズ深層学習への優しい入門

「確率的プログラミングの興奮する世界へようこそ!この記事は初心者向けのベイズ深層学習とディープニューラルネットワーク...

データサイエンス

オープンソースのベクトルデータベースChromaDBを使用して、セマンティック検索アプリケーションを構築する

はじめに AIアプリケーションとユースケースの台頭に伴い、AIアプリケーションを容易にし、AI開発者が実世界のアプリケーショ...