ロラハブにお会いしましょう:新しいタスクにおいて適応性のあるパフォーマンスを達成するために、多様なタスクでトレーニングされたロラ(低ランク適応)モジュールを組み立てるための戦略的なAIフレームワーク

ロラハブにお会いしましょう:多様なタスクでトレーニングされたロラ(低ランク適応)モジュールを組み立てるための戦略的なAIフレームワーク

大規模な事前学習言語モデル(LLM)であるOpenAI GPT、Flan-T5、LLaMAは、NLPの急速な進歩に大きく貢献してきました。これらのモデルは、さまざまなNLPアプリケーションで非常に優れたパフォーマンスを発揮します。しかし、その巨大なパラメータサイズのため、ファインチューニング中には計算効率とメモリ使用率の問題が生じます。

近年、Low-Rank Adaptation(LoRA)がチューニングのための強力なツールとして台頭しています。これにより、LLMのトレーニングに必要なメモリと計算量が減少し、トレーニングのスピードが向上します。LoRAは、LLMのパラメータを固定し、指定されたタスクで信頼性の高い小さな補完モジュールを学習することでこれを実現します。

LoRAによる効率の向上は、以前の研究の焦点でしたが、LoRAモジュールのモジュラリティと組み合わせ可能性についてはほとんど注目されていませんでした。LoRAモジュールが未知の問題に効率的に一般化できるかどうかについての研究が必要です。

Sea AI Lab、ワシントン大学、Allen Institute for AIの研究者グループは、LoRAのモジュラリティを使用して、特定のタスクのトレーニングに制限するのではなく、新しい課題で柔軟なパフォーマンスを実現することを決定しました。彼らのアプローチの主な利点は、LoRAモジュールを人間の介入や専門知識なしで自動的に組み立てることができることです。

この方法では、以前に認識されなかったタスクのわずかなサンプルだけで適切なLoRAモジュールを自動的に配置できます。研究者は、どのタスクでトレーニングされたLoRAモジュールが統合できるかについての仮定を行わないため、要件を満たすすべてのモジュールがマージの対象となります(例:同じLLMを利用すること)。彼らは、この技術をLoraHub学習と呼び、すでに存在するさまざまなLoRAモジュールを使用します。

チームは、業界標準のBBHベンチマークとFlan-T5を基盤としたLLMを使用して、彼らの手法の有効性を評価しました。結果は、新しいタスクのためのLoRAモジュールを作成するためのフューショットLoraHub学習プロセスの価値を示しています。驚くべきことに、この戦略はフューショットでコンテキスト学習に非常に近い結果を得ます。LLMへの入力としてのインスタンスの必要性も、インコンテキスト学習と比較して推論コストを大幅に削減します。この学習技術は、LoRAモジュールの係数を生成するために勾配フリーアプローチを採用し、わずかな推論ステップのみを必要とします。たとえば、単一のA100を使用して、わずか1分でBBHでトップレベルのパフォーマンスを実現できます。

LoraHubでの学習には、LLMの推論の処理方法を知っているだけで十分です。そのため、CPUのみでこの作業を行うことができます。この作業の柔軟性と高いパフォーマンスは、トレーニングされたLoRAモジュールが容易に共有、アクセス、およびこのドメインで新しいジョブに適用されるプラットフォームの創造を可能にする道を開きます。チームは、LoRAノードを動的に組み合わせて、LLMの機能を改善する作業に取り組んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ChatGPT Visionのすごい活用方法」

「これらの新しい画像機能により、ChatGPTを利用する新しい方法の世界が広がります」

データサイエンス

「リアルタイムの高度な物体認識を備えたLego Technicソーターの構築」

「Nullspace Roboticsでのインターンシップ中、私は会社の能力を高めるプロジェクトに取り組む機会を得ました物体検出と機械...

人工知能

ダイナミックAIプロジェクト見積もり' (Dainamikku AI purojekuto mitsumori)

現在、ほとんどの人が見積もりを使用しています顧客は、プロジェクトの結果を使用するタイミングを計画し制御するためにそれ...

AIニュース

「Azure OpenAIを使用した企業文書とのチャット」

大規模言語モデル(LLM)のようなChatGPTは、インターネット上の大量のテキストから訓練される際に、数十億のパラメータ内に...

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

データサイエンス

第四次産業革命:AIと自動化

イントロダクション 人類の絶え間ない未知の探求は、技術の進歩をもたらしてきました。AIと自動化から成る産業革命の到来が世...