ロラハブにお会いしましょう:新しいタスクにおいて適応性のあるパフォーマンスを達成するために、多様なタスクでトレーニングされたロラ(低ランク適応)モジュールを組み立てるための戦略的なAIフレームワーク

ロラハブにお会いしましょう:多様なタスクでトレーニングされたロラ(低ランク適応)モジュールを組み立てるための戦略的なAIフレームワーク

大規模な事前学習言語モデル(LLM)であるOpenAI GPT、Flan-T5、LLaMAは、NLPの急速な進歩に大きく貢献してきました。これらのモデルは、さまざまなNLPアプリケーションで非常に優れたパフォーマンスを発揮します。しかし、その巨大なパラメータサイズのため、ファインチューニング中には計算効率とメモリ使用率の問題が生じます。

近年、Low-Rank Adaptation(LoRA)がチューニングのための強力なツールとして台頭しています。これにより、LLMのトレーニングに必要なメモリと計算量が減少し、トレーニングのスピードが向上します。LoRAは、LLMのパラメータを固定し、指定されたタスクで信頼性の高い小さな補完モジュールを学習することでこれを実現します。

LoRAによる効率の向上は、以前の研究の焦点でしたが、LoRAモジュールのモジュラリティと組み合わせ可能性についてはほとんど注目されていませんでした。LoRAモジュールが未知の問題に効率的に一般化できるかどうかについての研究が必要です。

Sea AI Lab、ワシントン大学、Allen Institute for AIの研究者グループは、LoRAのモジュラリティを使用して、特定のタスクのトレーニングに制限するのではなく、新しい課題で柔軟なパフォーマンスを実現することを決定しました。彼らのアプローチの主な利点は、LoRAモジュールを人間の介入や専門知識なしで自動的に組み立てることができることです。

この方法では、以前に認識されなかったタスクのわずかなサンプルだけで適切なLoRAモジュールを自動的に配置できます。研究者は、どのタスクでトレーニングされたLoRAモジュールが統合できるかについての仮定を行わないため、要件を満たすすべてのモジュールがマージの対象となります(例:同じLLMを利用すること)。彼らは、この技術をLoraHub学習と呼び、すでに存在するさまざまなLoRAモジュールを使用します。

チームは、業界標準のBBHベンチマークとFlan-T5を基盤としたLLMを使用して、彼らの手法の有効性を評価しました。結果は、新しいタスクのためのLoRAモジュールを作成するためのフューショットLoraHub学習プロセスの価値を示しています。驚くべきことに、この戦略はフューショットでコンテキスト学習に非常に近い結果を得ます。LLMへの入力としてのインスタンスの必要性も、インコンテキスト学習と比較して推論コストを大幅に削減します。この学習技術は、LoRAモジュールの係数を生成するために勾配フリーアプローチを採用し、わずかな推論ステップのみを必要とします。たとえば、単一のA100を使用して、わずか1分でBBHでトップレベルのパフォーマンスを実現できます。

LoraHubでの学習には、LLMの推論の処理方法を知っているだけで十分です。そのため、CPUのみでこの作業を行うことができます。この作業の柔軟性と高いパフォーマンスは、トレーニングされたLoRAモジュールが容易に共有、アクセス、およびこのドメインで新しいジョブに適用されるプラットフォームの創造を可能にする道を開きます。チームは、LoRAノードを動的に組み合わせて、LLMの機能を改善する作業に取り組んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「エンタープライズAIの処理のための表現能力を向上させる鍵は、RAG + ファインチューニングです以下にその理由を説明します」

「ジェネレーティブAIはほとんどのCEOの頭にありますが、そのエンタープライズへの適応方法は議論の余地がありますその成功の...

AI研究

スタンフォード研究者がGLOWとIVESを使用して、分子ドッキングとリガンド結合位姿の予測を変革しています

ディープラーニングは、スコアリング関数の改善により、分子ドッキングの向上の可能性を持っています。現在のサンプリングプ...

AI研究

「強力な遺産:研究者の母が核融合への情熱をかきたてる」

編集者のメモ:これは、高性能コンピューティングを用いて科学を進める研究者を紹介するシリーズの一部です。 高校に入る前、...

機械学習

デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク

T2Iモデル(テキストから画像を生成するモデル)の評価は困難であり、しばしば質問生成と回答(QG/A)の手法に依存してテキス...

データサイエンス

JAXの始め方

JAXは、Googleが開発したPythonライブラリであり、あらゆるタイプのデバイス(CPU、GPU、TPUなど)で高性能な数値計算を行う...

機械学習

「ChatGPT AI-1の解放:高度なLLMベースのシステムの構築」

導入 この記事では、チャットGPT AI-1を使ったLLM(大規模言語モデル)に基づくシステムの構築について説明します。読者がプ...