LoftQをご紹介します：大規模言語モデルのためのLoRA（Fine-Tuning-Aware Quantization）

LoRA（Fine-Tuning-Aware Quantization）についてご紹介：大規模言語モデル用のLoftQ

プリトレーニングされた言語モデル(PLM)の導入は、自然言語処理の分野において画期的な変革を示しています。プリトレーニングされたモデルは、自然言語理解(NLU)や自然言語生成(NLG)を含む幅広い言語タスクにおいて卓越した能力を示しています。これらのモデルは通常、数百万または数十億のパラメータを組み込んでおり、計算およびメモリの要件が大きくなっています。ただし、これらのモデルの計算およびメモリのニーズは、研究コミュニティに認識されているように、重要な課題を提起しています。

この論文で、著者たちは新しい量子化フレームワークであるLoRA-Fine-Tuning-aware Quantization (LoftQ)を紹介しています。このフレームワークは、量子化とLoRA微調整を必要とするプリトレーニングモデルに特化しています。このフレームワークは、元々の高精度のプリトレーニングウェイトを低ランク近似と組み合わせて近似的に表現することにより、効果的に機能します。

上記の画像は、QLoRAの異なるビットでのパフォーマンスを示しています。左：WikiText-2上のLLAMA-2-13bのQLoRA初期化。右：WikiText-2の言語モデリングタスクにおいてLLAMA-2-13bにQLoRAを適用。より小さい困惑度はより優れたパフォーマンスを示します。

量子化手法。LoftQがさまざまな量子化関数と互換性があることを示すために、2つの量子化手法を適用します：

・一様量子化は、古典的な量子化手法です。連続区間を均等に2N個に分割し、復元のために局所的な最大絶対値を格納します。

・QLoRAで使用されるNF4とその2ビットバリアントNF2は、高精度の値がガウス分布に従っていると仮定し、これらの値を等しい確率を持つ離散スロットにマッピングします。

私たちは全モデルに2ビットおよび4ビットの量子化を行い、4ビットおよび2ビットレベルでそれぞれ25〜30%、15〜20%の圧縮率を達成しました。すべての実験はNVIDIA A100 GPUで実施されました。

彼らの量子化フレームワークの評価は、NLU、質問応答、要約、NLGを含むさまざまな下位タスクでの包括的な実験を通じて行われます。これらの実験の結果は、LoftQがすべての精度レベルにおいて常にQLoRAを上回っていることを示しています。たとえば、4ビット量子化では、XSumおよびCNN/DailyMailのRouge-1の改善がそれぞれ1.1と0.8であります。自然言語処理の分野が進歩し続けるにつれ、PLMの膨大な潜在能力とその実用的な展開との間のギャップを埋めるため、さらなる革新と最適化が期待されており、幅広いアプリケーションとユーザーに利益をもたらすでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

LoftQをご紹介します：大規模言語モデルのためのLoRA（Fine-Tuning-Aware Quantization）

Was this article helpful?

開発者はAIを使ってソフトウェアのTCOを削減できるのか？

「トップ5のクラウドマシンラーニングプラットフォームとツール」

機械学習

「GPT-5がOpenAIによって商標登録されました：それがChatGPTの未来について何を示しているのでしょうか？」

NVIDIAの最高科学者、ビル・ダリー氏がHot Chipsで基調講演を行う

取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします

「接続から知能へ：ブロックチェーンとAIがIoTエコシステムを変革する方法」

「バイオメディシンのための検索補完型生成（RAG）を行っていますか？ MedCPTを利用してゼロショットのバイオメディカル情報検索を行いましょう：対話的な事前学習済みトランスフォーマーモデル」

「Javaプログラミングの未来：2023年に注目すべき5つのトレンド」