NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ

NVIDIA AI研究者によるTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率向上のための革新的な人工知能アプローチ

Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation(LoRA)手法のパラメータ効率を改善することを目指しています。この講座では、ウェイトタイイングと選択的トレーニングを使用して、性能とトレーニング可能なパラメータの最適なバランスを見つけます。研究者はさまざまなタスクとベースの言語モデルで実験を行い、効率と性能の間にトレードオフがあることを発見しました。

最近のパラメータ効率の高い微調整技術には、LoRAがあります。これは、低ランク行列の近似を通じてトレーニング可能なパラメータを減らします。AdaLoRAは、動的なランク調整を導入し、アダプタの調整とLoRAを組み合わせたLoRAの拡張です。Kopiczkoによって提案されたVeRAは、凍結行列とトレーニング可能なスケーリングベクトルを介してパラメータを削減します。QLoRAは、メモリ効率の高いLoRAを実現するために量子化されたベースモデルを使用します。本研究では、低ランク重み行列にウェイトタイイングを適用し、さらにパラメータの効率を向上させています。

DownstreamタスクのためのLLMの微調整の計算負荷に対処するために、Tied-LoRAはウェイトタイイングと選択的トレーニングを組み合わせて、LoRAのパラメータ効率を向上させる新しいアプローチです。研究者は、さまざまなスタディとベースの言語モデルで系統的な実験を通じて、さまざまなパラメータトレーニング/フリーズおよびウェイトタイイングの組み合わせを探索しています。研究者は、標準的なLoRA手法と比較して、パラメータのわずか13%のみを利用して同等の性能を実現する特定のTied-LoRA構成を特定しました。

Tied-LoRAは、ウェイトタイイングと選択的トレーニングを組み合わせて、LoRAアプローチのパラメータ効率を向上させる方法です。これは、LoRA内の低ランク行列にウェイトタイイングを適用し、ベースの言語モデルのレイヤー間で同じ結果を共有し、トレーニング可能なパラメータの数を減らすことによるものです。さまざまなパラメータトレーニング/フリーズとウェイトタイイングの組み合わせを探索し、性能とトレーニング可能なパラメータの最適なバランスを実現します。提案されたTied-LoRAの構成は、翻訳や数学的な推論を含むさまざまなタスクで評価され、データ設定全体で効率性を示しています。

さまざまなタスクと2つのベース言語モデルを対象とした実験では、異なるTied-LoRAの構成が効率と性能の間のトレードオフを示しました。特定のTied-LoRA構成であるvBuAは他の構成を凌ぎ、同等のパフォーマンスを実現しました。vBuAは最適なオプションとして特定され、パラメータを87%削減しながらパフォーマンスを維持しました。抽出型質問応答、要約、数学的推論などのタスクでの評価は、Tied-LoRAのパラメータ効率を向上させながら、競争力のあるパフォーマンスを著しく保持していることを示しています。

さまざまなタスクを対象とした実験の結果から、Tied-LoRAはLoRA手法のパラメータ効率を向上させる一つの手法であり、ウェイトタイイングと選択的トレーニングを利用しています。結果は、Tied-LoRAが常識NLI、抽出型QA、要約などの機能を置き換えることができることを示しています。さらに、Tied-LoRAはパフォーマンスを損なうことなく改善されたパラメータ効率を提供し、標準的なLoRAからわずか13%のパラメータのみを利用します。ただし、制限や他のパラメータ効率手法との比較を議論し、将来の探索の潜在的な領域を特定することが重要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索

アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生...

AI研究

この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています

トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語...

機械学習

「大規模言語モデルのランドスケープをナビゲートする」

マイクロソフトとメタは最近、次世代のオープンソースの大規模言語モデル(LLM)であるLlama 2を発表しましたLlama 2には、事...

機械学習

Learning to build—Towards AI コミュニティニュースレター第1号

私たちは最新のニュースレターをお知らせすることをとても楽しみにしています!それは私たちの共同体についてのすべてですコ...