Search Results Low-Rank Adaptation

MITとCUHKの研究者たちは、LLM（Long Context Large Language Models）に対して効率的なファインチューニングAIアプローチであるLongLoRA（Long Low-Rank Adaptation）を提案しています

Large language models（LLMs）の導入により、人工知能の領域で大きな進歩がもたらされました。自然言語処理（NLP）、自然言語理解（NLU）、自然言語生成（NLG）の概念に基づいて、LLMsは驚異的な能力を持って世界を席巻しています。LLaMAとLLaMA2などのよく知られているモデルは、自然言語の理解と生成に非常に効果的なツールとなっています。ただし、LLMには制約があり、LLaMAの最大コンテキストサイズは2048トークン、LLaMA2の最大コンテキストサイズは4096トークンです。これにより、長いドキュメントや長いクエリを処理する必要があるタスクに対しては苦労します。シーケンスを長く訓練することでコンテキストウィンドウを拡張する方法もありますが、これには計算上の困難が伴い、リソースを過度に消費する可能性があります。ローランク適応（LoRA）は、コンテキストウィンドウを拡張するための簡単な方法です。LoRAは、自己注意ブロックの線形射影層を変更するために計算効率が高く、トレーニング可能なパラメータの数を制限した低ランク行列を使用します。ただし、長いコンテキストモデルを単純なローランク適応で訓練することは、経験的な研究によるとあまり効果的ではないようです。通常の自己注意メカニズムにより、コンテキストの拡張が進むにつれ、混乱が生じ、効果が低下します。制約を克服するために、研究チームはLongLoRAという効率的な微調整手法を開発しました。この手法は、過度な計算コストをかけることなく、事前学習済みの大規模言語モデルのコンテキストサイズを効果的に拡張するために開発されました。LongLoRAは、LLaMA2などの事前学習済みLLMのコンテキストウィンドウを拡大するプロセスを2つの重要な方法で高速化します。まず、LongLoRAは、微調整中に有効なコンテキスト拡張を実現するために、シフトショートアテンション（S2-Attn）を利用します。LLMが推論中にうまく機能するためには、依然として密なグローバルアテンションが必要ですが、微調整プロセスでは疎なローカルアテンションを利用することで効果的かつ迅速に実行することができます。従来のアテンション技術を使った微調整と比較して、S2-Attnはコンテキストの拡張を可能にし、計算上の節約につながります。なぜなら、トレーニング中に実装するための2行のコードだけで済むオプションの部分なので、推論とは別に容易に統合できるからです。次に、LongLoRAはパラメータの効果的なコンテキスト拡張技術に重点を置いて微調整手順を再検討します。研究チームは、モデルにトレーニング可能な埋め込み層と正規化層がある場合、LoRAはコンテキストの拡張に優れたパフォーマンスを発揮することを発見しました。この認識は、計算負荷を大幅に増やすことなくコンテキストを拡張するために重要な要素です。 7B/13Bから70BまでのサイズのLLaMA2モデルに対して、LongLoRAはさまざまなタスクに対して注目すべき経験的な結果を示しました。1つの8 x A100 GPUコンピュータでは、この手法によりLLaMA2 7Bのコンテキストを4kトークンから100kトークン、LLaMA2 70Bのコンテキストを32kトークンまで拡大することができます。これにより、元のモデル構造を維持しながら、既存の使用方法やFlashAttention-2などのツールと互換性があります。また、実際のLongLoRAの使用を支援するために、LongQAというデータセットが開発されています。このデータセットには、広範なコンテキストを持つ3,000以上の質問-回答のペアが含まれています。このデータセットの提供により、LLMの機能を拡張したいと考えている学術研究者やプロフェッショナルにとって、LongLoRAの有用性が向上しています。

「ゼロから始めるLoRAの実装」

「LoRA（ローラ）は、既存の言語モデルを微調整するための効率的で軽量な方法を提供する、Low-Rank AdaptationまたはLow-Rank Adaptorsの頭字語ですこれには、BERTのようなマスクされた言語モデルも含まれます...」

「LLM Fine-Tuningの理解：大規模言語モデルを独自の要件に合わせる方法」

「Llama 2のような大規模言語モデル（LLM）の微調整技術の最新の進展を探索してくださいLow-Rank Adaptation（LoRA）やQuantized LoRA（QLoRA）などの技術が、新しい利用におけるモデルの適応を革新している方法を学びましょう最後に、人間のフィードバックからの強化学習による微調整が、LLMをより人間の価値観に近づける方法にどのように影響しているかを見てみましょう」

「大規模言語モデルの微調整方法：ステップバイステップガイド」

2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル（LLM）の台頭は、人工知能の民主化の傾向を示しています

NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション（LoRA）メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ

Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation（LoRA）手法のパラメータ効率を改善することを目指しています。この講座では、ウェイトタイイングと選択的トレーニングを使用して、性能とトレーニング可能なパラメータの最適なバランスを見つけます。研究者はさまざまなタスクとベースの言語モデルで実験を行い、効率と性能の間にトレードオフがあることを発見しました。最近のパラメータ効率の高い微調整技術には、LoRAがあります。これは、低ランク行列の近似を通じてトレーニング可能なパラメータを減らします。AdaLoRAは、動的なランク調整を導入し、アダプタの調整とLoRAを組み合わせたLoRAの拡張です。Kopiczkoによって提案されたVeRAは、凍結行列とトレーニング可能なスケーリングベクトルを介してパラメータを削減します。QLoRAは、メモリ効率の高いLoRAを実現するために量子化されたベースモデルを使用します。本研究では、低ランク重み行列にウェイトタイイングを適用し、さらにパラメータの効率を向上させています。 DownstreamタスクのためのLLMの微調整の計算負荷に対処するために、Tied-LoRAはウェイトタイイングと選択的トレーニングを組み合わせて、LoRAのパラメータ効率を向上させる新しいアプローチです。研究者は、さまざまなスタディとベースの言語モデルで系統的な実験を通じて、さまざまなパラメータトレーニング/フリーズおよびウェイトタイイングの組み合わせを探索しています。研究者は、標準的なLoRA手法と比較して、パラメータのわずか13%のみを利用して同等の性能を実現する特定のTied-LoRA構成を特定しました。 Tied-LoRAは、ウェイトタイイングと選択的トレーニングを組み合わせて、LoRAアプローチのパラメータ効率を向上させる方法です。これは、LoRA内の低ランク行列にウェイトタイイングを適用し、ベースの言語モデルのレイヤー間で同じ結果を共有し、トレーニング可能なパラメータの数を減らすことによるものです。さまざまなパラメータトレーニング/フリーズとウェイトタイイングの組み合わせを探索し、性能とトレーニング可能なパラメータの最適なバランスを実現します。提案されたTied-LoRAの構成は、翻訳や数学的な推論を含むさまざまなタスクで評価され、データ設定全体で効率性を示しています。さまざまなタスクと2つのベース言語モデルを対象とした実験では、異なるTied-LoRAの構成が効率と性能の間のトレードオフを示しました。特定のTied-LoRA構成であるvBuAは他の構成を凌ぎ、同等のパフォーマンスを実現しました。vBuAは最適なオプションとして特定され、パラメータを87%削減しながらパフォーマンスを維持しました。抽出型質問応答、要約、数学的推論などのタスクでの評価は、Tied-LoRAのパラメータ効率を向上させながら、競争力のあるパフォーマンスを著しく保持していることを示しています。さまざまなタスクを対象とした実験の結果から、Tied-LoRAはLoRA手法のパラメータ効率を向上させる一つの手法であり、ウェイトタイイングと選択的トレーニングを利用しています。結果は、Tied-LoRAが常識NLI、抽出型QA、要約などの機能を置き換えることができることを示しています。さらに、Tied-LoRAはパフォーマンスを損なうことなく改善されたパラメータ効率を提供し、標準的なLoRAからわずか13%のパラメータのみを利用します。ただし、制限や他のパラメータ効率手法との比較を議論し、将来の探索の潜在的な領域を特定することが重要です。

このAIニュースレターは、あなたが必要とするすべてです＃74

今週は、残念ながらOpenAIの連続する出来事に注目が集まり、いくつかの興味深い新しいモデルの発表が overshadow されてしまいましたおそらく、あなたはその曲折を追いかけていることでしょう...

MITの研究者たちは「MechGPT」を導入しました：メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア

研究者たちは、物質科学の広範な領域において密度の濃い科学的な文書から重要な洞察を効率的に抽出するという困難な課題に直面しています。この複雑な作業には、複雑なコンテンツをナビゲートし、物質の核心を網羅した意味のある質問・回答ペアを生成することが含まれます。その複雑さは、科学的な文書の密なフabricから重要な情報を抽出するという大きな課題にあります。このため、研究者は物質の本質を捉えた意味のある質問・回答ペアを作り出す必要があります。この領域内の現在の手法では、情報抽出に汎用言語モデルを活用することが一般的です。しかし、これらの手法はテキストの洗練化や方程式を正確に組み込む際に支援が必要です。これに対応するため、MITの研究者チームは、事前学習済み言語モデルに基づく画期的なモデルであるMechGPTを紹介しました。この革新的な手法では、一般的な言語モデルを利用して鋭い質問・回答ペアを形成するための2段階のプロセスを採用しています。MechGPTは単なる抽出以上に、鍵となる事実の明確さを向上させます。 MechGPTの旅は、Hugging Faceエコシステム内のPyTorchで実施される慎重なトレーニングプロセスで始まります。Llama 2 transformerアーキテクチャに基づき、このモデルは40のトランスフォーマーレイヤーを誇り、ロータリー位置埋め込みを活用して拡張されたコンテキストの長さを容易にします。32ビットのページ化されたAdamWオプティマイザーを用いて、トレーニングプロセスは約0.05の優れた損失を達成します。研究者たちは、モデルの能力を向上させるために微調整中にLow-Rank Adaptation (LoRA) を導入しています。これにより、追加のトレーニング可能なレイヤーを統合しながら、元の事前学習済みモデルを凍結させることで、モデルが初期の知識ベースを消去するのを防ぎます。その結果、メモリの効率化とトレーニングのスループットの加速が実現します。 MechGPTの基本モデルに加えて、研究者はより大規模な2つのモデル、MechGPT-70bとMechGPT-70b-XLのトレーニングにも取り組んでいます。前者はMeta/Llama 2 70 chatモデルの微調整バージョンであり、後者は10,000トークンを超える大きなコンテキストのために動的にスケーリングされたRoPEを組み込んでいます。 MechGPT内のサンプリングは、因果関係マスキングを実装した自己回帰原則に従って行われます。これにより、モデルは次の要素を考慮せずに各要素を予測するため、将来の単語を考慮しないように制約されます。この実装では、モデルの焦点を調整するために温度スケーリングが導入され、不確実性の温度の概念が導入されます。まとめると、MechGPTは物質科学の科学的な文書から知識を抽出するという困難な領域での希望の光として浮かび上がっています。LoRAや4ビットの量子化などの革新的な技術によって豊かになったモデルのトレーニングプロセスは、従来の言語モデルを超えた応用の可能性を示しています。Google Scholarへのアクセスを提供するチャットインタフェースにおけるMechGPTの具体的な具現化は、将来の拡張に向けた橋渡しとなります。この研究は、材料科学における貴重な財産としてMechGPTを紹介し、専門領域内の言語モデルの限界を押し広げる先駆者と位置付けています。研究チームがさらに前進する中、MechGPTは言語モデルのダイナミックな進化の証として、知識抽出の新たなフロンティアを開拓しています。

LangChain チートシート — すべての秘密を1ページにまとめました

作成されたワンページは、LangChainの基本をまとめたものですこの記事では、コードのセクションを進めて行き、LangChainで成功するために必要なスターターパッケージについて説明しますLangChainにおけるモデルは…

「Llama2とAmazon SageMakerを使用したLoRAのファインチューニングモデルのモデル管理」

ビッグデータとAIの時代において、企業は競争上の優位性を得るためにこれらの技術を利用する方法を常に探求しています現在、AIの中でも最も注目されている分野の一つが生成AIですそしてその理由は十分にあると言えます生成AIは創造性や可能性の限界を押し上げる強力な解決策を提供してくれます

UCバークレーとスタンフォードの研究者チームがS-LoRAを発表：多数のLoRAアダプターのスケーラブルな提供のために設計された人工知能システム

UC BerkeleyおよびStanfordの研究者チームは、LLMの展開において新たなパラメータ効率の良いファインチューニング手法であるLow-Rank Adaptation (LoRA)を開発しました。S-LoRAは、多数のLoRAアダプターの効率的な展開を可能にするために設計されました。S-LoRAは、単一のGPU上または複数のGPU上で数千のアダプターを最小限のオーバヘッドで実行できるようにします。この手法は統合ページングを導入し、GPUメモリの使用を最適化し、新しいテンソル並列処理と異種バッチ処理のためのカスタムCUDAカーネルを利用します。これらの技術により、実世界のアプリケーションでのLLMの展開における計算要件が大幅に削減されます。 LoRAは、事前学習されたLLMを新しいタスクにカスタマイズするための非常に効率的なファインチューニング手法であり、高い精度を保ちながら学習可能なパラメータの数を劇的に減らします。LLMに対するLoRAの採用は広範であり、無数のLoRAアダプターがLLMや拡散モデルのために作成されています。現代のアプリケーションでは、LLMが様々なドメインとタスクに対応して普及しています。現代のアプリケーションでは、LLMが広範に活用されており、事前学習後のファインチューニング手法により、特定のタスクやドメインにカスタマイズされた1つの基本LLMの複数のファインチューニングバージョンが作成されています。LoRAは、高い精度を維持しながら学習可能なパラメータの数を大幅に減らすことで、事前学習されたLLMを新しいタスクに合わせたファインチューニング手法です。 S-LoRAは、広範なタスクに対して基本モデルを効率的にファインチューニングし、1つのモデルから多数のLoRAアダプターを生成するためにLoRAを活用します。Unified Pagingを導入し、統一メモリプール内で動的なアダプターウェイトとKVキャッシュテンソルを管理することで、GPUメモリの使用を最適化します。S-LoRAは、最小限のオーバヘッドで数千のLoRAアダプターを提供することができます。この手法はスループットを4倍向上させ、HuggingFace PEFTやvLLMなどの主要なライブラリと比較してサポートされるアダプターの数を大幅に拡大することができます。 S-LoRAは最小限のオーバヘッドで2,000のアダプターを同時に処理し、低い計算コストを維持します。1つのアダプターに対してvLLM-packedと比較して最大4倍、PEFTと比較して最大30倍のパフォーマンスを発揮し、大幅なアダプター数をサポートします。S-LoRAは、スループットとレイテンシーにおいて、S-LoRA-bmmとS-LoRA-no-unifymemを上回り、メモリプールとカスタムカーネルの効果を強調しています。このシステムのスケーラビリティは、利用可能なメインメモリによって主に制限されており、実世界のワークロードに対して堅牢なパフォーマンスを実現しています。S-LoRAの素晴らしい能力により、さまざまなタスクに大規模な言語モデルを適応するための強力なソリューションとなります。この研究は、量子化、疎化、およびモデルアーキテクチャの改善などの最適化手法を調査することでパフォーマンスを向上させることを目的としています。基本モデルとアダプターの両方に分解計算技術を実装し、強化されたサポートのためのカスタムCUDAカーネルの開発も検討しています。また、LLMの提供における自己回帰的な特徴とパラメータ効率の良いアダプターへの取り組みも含まれており、現在のモデル提供システムにおける最適化のギャップを特定し、埋めることを目指しています。まとめとして、S-LoRAはメモリの断片化に対抗するために統合ページングを導入し、バッチサイズの増加とスケーラビリティの向上を実現しました。この研究では、従来未踏のスケールでのファインチューニングバリアントの提供という課題に対処したスケーラブルなLoRAの提供ソリューションを紹介しています。量子化、疎化、モデルアーキテクチャのようなアルゴリズム技術によるLoRAの提供の最適化も行われ、システムレベルの改善を補完しています。

Learn more about Search Results Low-Rank Adaptation