MITとCUHKの研究者たちは、LLM(Long Context Large Language Models)に対して効率的なファインチューニングAIアプローチであるLongLoRA(Long Low-Rank Adaptation)を提案しています

MITとCUHKの研究者が提案する効率的なファインチューニングAIアプローチ「LongLoRA(Long Low-Rank Adaptation)」は、LLM(Long Context Large Language Models)に対して革新的な手法です

Large language models(LLMs)の導入により、人工知能の領域で大きな進歩がもたらされました。自然言語処理(NLP)、自然言語理解(NLU)、自然言語生成(NLG)の概念に基づいて、LLMsは驚異的な能力を持って世界を席巻しています。LLaMAとLLaMA2などのよく知られているモデルは、自然言語の理解と生成に非常に効果的なツールとなっています。

ただし、LLMには制約があり、LLaMAの最大コンテキストサイズは2048トークン、LLaMA2の最大コンテキストサイズは4096トークンです。これにより、長いドキュメントや長いクエリを処理する必要があるタスクに対しては苦労します。シーケンスを長く訓練することでコンテキストウィンドウを拡張する方法もありますが、これには計算上の困難が伴い、リソースを過度に消費する可能性があります。

ローランク適応(LoRA)は、コンテキストウィンドウを拡張するための簡単な方法です。LoRAは、自己注意ブロックの線形射影層を変更するために計算効率が高く、トレーニング可能なパラメータの数を制限した低ランク行列を使用します。ただし、長いコンテキストモデルを単純なローランク適応で訓練することは、経験的な研究によるとあまり効果的ではないようです。通常の自己注意メカニズムにより、コンテキストの拡張が進むにつれ、混乱が生じ、効果が低下します。

制約を克服するために、研究チームはLongLoRAという効率的な微調整手法を開発しました。この手法は、過度な計算コストをかけることなく、事前学習済みの大規模言語モデルのコンテキストサイズを効果的に拡張するために開発されました。LongLoRAは、LLaMA2などの事前学習済みLLMのコンテキストウィンドウを拡大するプロセスを2つの重要な方法で高速化します。

まず、LongLoRAは、微調整中に有効なコンテキスト拡張を実現するために、シフトショートアテンション(S2-Attn)を利用します。LLMが推論中にうまく機能するためには、依然として密なグローバルアテンションが必要ですが、微調整プロセスでは疎なローカルアテンションを利用することで効果的かつ迅速に実行することができます。従来のアテンション技術を使った微調整と比較して、S2-Attnはコンテキストの拡張を可能にし、計算上の節約につながります。なぜなら、トレーニング中に実装するための2行のコードだけで済むオプションの部分なので、推論とは別に容易に統合できるからです。

次に、LongLoRAはパラメータの効果的なコンテキスト拡張技術に重点を置いて微調整手順を再検討します。研究チームは、モデルにトレーニング可能な埋め込み層と正規化層がある場合、LoRAはコンテキストの拡張に優れたパフォーマンスを発揮することを発見しました。この認識は、計算負荷を大幅に増やすことなくコンテキストを拡張するために重要な要素です。

7B/13Bから70BまでのサイズのLLaMA2モデルに対して、LongLoRAはさまざまなタスクに対して注目すべき経験的な結果を示しました。1つの8 x A100 GPUコンピュータでは、この手法によりLLaMA2 7Bのコンテキストを4kトークンから100kトークン、LLaMA2 70Bのコンテキストを32kトークンまで拡大することができます。これにより、元のモデル構造を維持しながら、既存の使用方法やFlashAttention-2などのツールと互換性があります。

また、実際のLongLoRAの使用を支援するために、LongQAというデータセットが開発されています。このデータセットには、広範なコンテキストを持つ3,000以上の質問-回答のペアが含まれています。このデータセットの提供により、LLMの機能を拡張したいと考えている学術研究者やプロフェッショナルにとって、LongLoRAの有用性が向上しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

自動小売りチェックアウトは、ラベルのない農産物をどのように認識するのか? PseudoAugmentコンピュータビジョンアプローチとの出会い

機械学習とディープラーニングの技術の進歩により、さまざまな次元の自動化が増えています。自動化により、特に小売業におい...

機械学習

3Dで「ウォーリーを探せ」をプレイする:OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです

画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオ...

機械学習

PyRCAをご紹介します:AIOpsにおけるRoot Cause Analysis(RCA)のために設計されたオープンソースのPython Machine Learningライブラリです

人工知能(AI)および機械学習の分野は、その信じられないほどの能力とほとんどすべての産業での使用例のおかげで急速に進化...

AI研究

MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直...

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...