マサチューセッツ州ローウェル大学の研究者たちは、高ランクのトレーニングに低ランクの更新を使用する新しいAIメソッドであるReLoRAを提案しています

Researchers at the University of Massachusetts Lowell propose a new AI method called ReLoRA, which uses low-rank updates for high-rank training.

以下は、HTMLのコードを日本語に翻訳したものです(HTMLコードはそのまま表示されます):

過去10年間、より大きなパラメータを持つネットワークや「より多くの層を積む」戦略によるトレーニングが機械学習の標準となってきました。パラメータの数も1億から数千億に増える中で、多くの研究グループはこのようなネットワークのトレーニングにかかる計算コストが高すぎるため、正当化できないと考えています。それにもかかわらず、トレーニングインスタンスよりも桁違いに多くのパラメータを持つモデルをトレーニングする必要性については、理論的な理解が不足しています。

より計算効率の良いスケーリングオプティマ、リトリーバルの強化モデル、およびより長い時間トレーニングするための小さいモデルのトレーニングというストレートな戦略は、スケーリングの代替手法として新しい魅力的なトレードオフを提供しています。しかし、これらのモデルのトレーニングを民主化することはほとんどなく、なぜ過パラメータ化されたモデルが必要なのかを理解するのに役立ちません。

最近の多くの研究によれば、トレーニングには過パラメータ化は必要ありません。経験的な証拠は、Lottery Ticket Hypothesisを支持しています。これは、初期化(または初期トレーニング)のある時点で、トレーニングすると全体のネットワークの性能を達成する孤立したサブネットワーク(当選券)が存在するというものです。

マサチューセッツ大学ローウェル校の最近の研究では、ReLoRAという方法を紹介し、ランクの合計特性を利用して、一連の低ランクアップデートを行うことで高ランクネットワークをトレーニングすることが可能となりました。彼らの研究結果は、ReLoRAが高ランクアップデートを実現し、標準のニューラルネットワークトレーニングと同等の結果をもたらすことを示しています。ReLoRAは、ロットリーチケット仮説と巻き戻しを用いたフルランクトレーニングのウォームスタートを使用します。マージアンドリニット(再起動)アプローチ、ジャグドラーニングレートスケジューラ、および部分的なオプティマイザのリセットの追加により、ReLoRAの効率が向上し、特に大規模ネットワークではフルランクトレーニングに近づけられます。

彼らは350MパラメータのトランスフォーマーランゲージモデルでReLoRAをテストしました。テストでは、自己回帰言語モデリングに重点を置きました。なぜなら、それがさまざまなニューラルネットワークの応用に適用可能であることが証明されているからです。結果は、ReLoRAの効果はモデルのサイズとともに向上し、数十億のパラメータを持つネットワークのトレーニングに適した選択肢となる可能性があることを示しています。

大規模な言語モデルやニューラルネットワークのトレーニングに関して、研究者は低ランクトレーニングのアプローチを開発することでトレーニング効率を向上させる可能性があると考えています。彼らは、勾配降下法を介してニューラルネットワークがどのようにトレーニングされ、その驚異的な汎化能力を達成するかについて、過パラメータ化の領域で低ランクトレーニングから学ぶことができると信じており、これは深層学習理論の発展に大きく貢献する可能性があると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

人工知能が人間の感情を再現するにつれて、本物の人間の表情の機械的な複雑さを徹底的に調査することが浮かび上がりました。...

AI研究

「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」

大規模言語モデルは、その超すばらしい能力によって多くの評価を集めています。彼らは人間を模倣し、人間のようにコンテンツ...

機械学習

ライトオンAIは、Falcon-40Bをベースにした新しいオープンソースの言語モデル(LLM)であるAlfred-40B-0723をリリースしました

画期的な動きとして、LightOnは誇りを持って、Falcon-40Bに基づく革新的なオープンソースの言語モデル(LLM)であるAlfred-40...

データサイエンス

「明日のAIによるサイバーセキュリティの風景に備える」

「AIの能力は二律背反の剣であり、既存のセキュリティ製品の効果を向上させる強力なツールである一方で、より洗練された脅威...

AIニュース

SSDを使用したリアルタイム物体検出:シングルショットマルチボックス検出器

イントロダクション リアルタイムオブジェクト検出では、従来のパラダイムは通常、バウンディングボックスの提案、ピクセルま...

AI研究

「AIが家庭用ロボットの計画時間を半分に減らすのを手助けします」

「PIGINetは機械学習を活用して、複雑な環境で実行可能な解決策を評価・フィルタリングすることで、家庭用ロボットのタスクと...