ReLoRa GPU上で大規模な言語モデルを事前学習する

ReLoRa GPUで言語モデルを事前学習する

複数回のリセットを行うLoRa

The ReLoRa framework — Image by the author

2021年、HuらはLLMsのための低ランクアダプタ(LoRa)を提案しました。この方法は、高ランクネットワーク(LLMsの元のパラメータ)を凍結させたまま、わずかな追加パラメータ(低ランクネットワーク)のみをトレーニングすることで、大規模な言語モデル(LLMs)の微調整のコストを大幅に削減します。

LoRaでは、既存の事前学習モデルを微調整する必要があります。つまり、低ランクの制約により、良いLLMをゼロから事前学習することはできません。これにより、事前学習はほとんどの個人や組織にとって手の届かないものとなります。

このコストを削減するために、Lialinら(2023年)はReLoRaを提案しています。これは、LoRaの改良版であり、ゼロからLLMsを事前学習することができます。

この記事では、まずReLoRaの動作原理を説明します。次に、ReLoRaを説明する科学論文で発表された結果を分析し、コメントします。最後のセクションでは、コンピュータ上でReLoRaを設定して実行する方法を示します。

ライセンスに関する注意事項: ReLoRaに関するarXivで発表された科学論文は、CC BY 4.0ライセンスの下で配布されています。ReLoRaのソースコードはGitHubで公開され、商用利用が許可されるApache 2.0ライセンスで配布されています。

ReLoRa:低ランクから高ランクネットワークへ

ReLoRaの動作原理を理解するためには、まずLoRaを詳しく見てみる必要があります。

LoRaは、トレーニング後に元の凍結された高ランクネットワークにマージされる2つの異なるセットの新しいトレーニング可能なパラメータAとBを追加することで機能します。

明らかなことかもしれませんが、AとBの合計のランクは、それぞれの個々のランクの合計よりも高くなります。これを以下のように形式化することができます:

LoRaはこれらの2つのパラメータセットのみをトレーニングしました。ただし、複数回リセットしてトレーニングし、元の高ランクネットワークに連続してマージすることができれば、ネットワークの総ランクを時間とともに増やすことができます。つまり、より大きなモデルを得ることができます。

なぜLoRaはこれらのリセットを行わないのでしょうか?

なぜなら、これらのリセットを有益にするためにはいくつかの重要な障害が存在するからです…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AI増強ソフトウェアエンジニアリング:知っておくべきすべてのこと

この包括的なガイドで、AIを活用したソフトウェアエンジニアリングの急速に成長する分野について学び、どのようにソフトウェ...

AI研究

この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します

人間の視覚システムと似たように、世界を見て認識する人工システムを構築することは、コンピュータビジョンの重要な目標です...

AIニュース

「NotebookLMは12以上の新機能を追加します」

「アメリカで現在利用可能なNotebookLMには、読みやすくメモを取り、執筆プロジェクトを整理するための新機能が追加されまし...

機械学習

2024年に探索するべきトップ12の生成 AI モデル

はじめに 近年、人工知能(AI)は非凡な変革を遂げ、創造性の風景を再構築するだけでなく、多様な産業における自動化の新たな...

データサイエンス

Generating AI(AIを生成する) vs マシンラーニング(機械学習):区別の解読

「ジェネラティブAIと機械学習を使ってデータ駆動型の意思決定の世界を探検しましょうデータ変換におけるそれぞれの違いと役...

データサイエンス

「ChatGPTのようなLLMの背後にある概念についての直感を構築する-パート1-ニューラルネットワーク、トランスフォーマ、事前学習、およびファインチューニング」

「たぶん私だけじゃないと思いますが、1月のツイートで明らかになっていなかったとしても、私は最初にChatGPTに出会ったとき...