NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ
NVIDIA AI研究者によるTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率向上のための革新的な人工知能アプローチ
Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation(LoRA)手法のパラメータ効率を改善することを目指しています。この講座では、ウェイトタイイングと選択的トレーニングを使用して、性能とトレーニング可能なパラメータの最適なバランスを見つけます。研究者はさまざまなタスクとベースの言語モデルで実験を行い、効率と性能の間にトレードオフがあることを発見しました。
最近のパラメータ効率の高い微調整技術には、LoRAがあります。これは、低ランク行列の近似を通じてトレーニング可能なパラメータを減らします。AdaLoRAは、動的なランク調整を導入し、アダプタの調整とLoRAを組み合わせたLoRAの拡張です。Kopiczkoによって提案されたVeRAは、凍結行列とトレーニング可能なスケーリングベクトルを介してパラメータを削減します。QLoRAは、メモリ効率の高いLoRAを実現するために量子化されたベースモデルを使用します。本研究では、低ランク重み行列にウェイトタイイングを適用し、さらにパラメータの効率を向上させています。
DownstreamタスクのためのLLMの微調整の計算負荷に対処するために、Tied-LoRAはウェイトタイイングと選択的トレーニングを組み合わせて、LoRAのパラメータ効率を向上させる新しいアプローチです。研究者は、さまざまなスタディとベースの言語モデルで系統的な実験を通じて、さまざまなパラメータトレーニング/フリーズおよびウェイトタイイングの組み合わせを探索しています。研究者は、標準的なLoRA手法と比較して、パラメータのわずか13%のみを利用して同等の性能を実現する特定のTied-LoRA構成を特定しました。
- マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています
- アリババの研究者らがQwen-Audioシリーズを発表 ユニバーサルな音声理解能力を備えた大規模な音声言語モデルのセット
- ペンシルバニア大学の研究者たちは、OpenAIのChatGPT-Visionに対して、一連のテストを実施することで、ビジョンベースのAI機能の有効性を評価するための機械学習フレームワークを開発しました
Tied-LoRAは、ウェイトタイイングと選択的トレーニングを組み合わせて、LoRAアプローチのパラメータ効率を向上させる方法です。これは、LoRA内の低ランク行列にウェイトタイイングを適用し、ベースの言語モデルのレイヤー間で同じ結果を共有し、トレーニング可能なパラメータの数を減らすことによるものです。さまざまなパラメータトレーニング/フリーズとウェイトタイイングの組み合わせを探索し、性能とトレーニング可能なパラメータの最適なバランスを実現します。提案されたTied-LoRAの構成は、翻訳や数学的な推論を含むさまざまなタスクで評価され、データ設定全体で効率性を示しています。
さまざまなタスクと2つのベース言語モデルを対象とした実験では、異なるTied-LoRAの構成が効率と性能の間のトレードオフを示しました。特定のTied-LoRA構成であるvBuAは他の構成を凌ぎ、同等のパフォーマンスを実現しました。vBuAは最適なオプションとして特定され、パラメータを87%削減しながらパフォーマンスを維持しました。抽出型質問応答、要約、数学的推論などのタスクでの評価は、Tied-LoRAのパラメータ効率を向上させながら、競争力のあるパフォーマンスを著しく保持していることを示しています。
さまざまなタスクを対象とした実験の結果から、Tied-LoRAはLoRA手法のパラメータ効率を向上させる一つの手法であり、ウェイトタイイングと選択的トレーニングを利用しています。結果は、Tied-LoRAが常識NLI、抽出型QA、要約などの機能を置き換えることができることを示しています。さらに、Tied-LoRAはパフォーマンスを損なうことなく改善されたパラメータ効率を提供し、標準的なLoRAからわずか13%のパラメータのみを利用します。ただし、制限や他のパラメータ効率手法との比較を議論し、将来の探索の潜在的な領域を特定することが重要です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- UCバークレーとSJTU中国の研究者が、言語モデルのベンチマークと汚染を再考するための「再表現サンプル」の概念を紹介しました
- 南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク
- NVIDIAのAI研究者は、オブジェクト周囲の狭いバンドにボリューメトリックレンダリングを制限することで、効率的にNeRFレンダリングを行うための人工知能アプローチを提案しています
- このAI研究では、BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介します
- 「このAI研究は微生物学者が細菌を識別するのを助けます」
- 「スタンフォード大学の研究者が言語モデルの事実性において革新を成し遂げました:自動的な優先順位付けとNLPの進歩によるエラー削減」
- センスタイムリサーチは、長文から人間の動きと軌跡を生成するための新しい人工知能アプローチ「Story-to-Motion」を提案しています