ReLoRa GPU上で大規模な言語モデルを事前学習する

ReLoRa GPUで言語モデルを事前学習する

複数回のリセットを行うLoRa

The ReLoRa framework — Image by the author

2021年、HuらはLLMsのための低ランクアダプタ(LoRa)を提案しました。この方法は、高ランクネットワーク(LLMsの元のパラメータ)を凍結させたまま、わずかな追加パラメータ(低ランクネットワーク)のみをトレーニングすることで、大規模な言語モデル(LLMs)の微調整のコストを大幅に削減します。

LoRaでは、既存の事前学習モデルを微調整する必要があります。つまり、低ランクの制約により、良いLLMをゼロから事前学習することはできません。これにより、事前学習はほとんどの個人や組織にとって手の届かないものとなります。

このコストを削減するために、Lialinら(2023年)はReLoRaを提案しています。これは、LoRaの改良版であり、ゼロからLLMsを事前学習することができます。

この記事では、まずReLoRaの動作原理を説明します。次に、ReLoRaを説明する科学論文で発表された結果を分析し、コメントします。最後のセクションでは、コンピュータ上でReLoRaを設定して実行する方法を示します。

ライセンスに関する注意事項: ReLoRaに関するarXivで発表された科学論文は、CC BY 4.0ライセンスの下で配布されています。ReLoRaのソースコードはGitHubで公開され、商用利用が許可されるApache 2.0ライセンスで配布されています。

ReLoRa:低ランクから高ランクネットワークへ

ReLoRaの動作原理を理解するためには、まずLoRaを詳しく見てみる必要があります。

LoRaは、トレーニング後に元の凍結された高ランクネットワークにマージされる2つの異なるセットの新しいトレーニング可能なパラメータAとBを追加することで機能します。

明らかなことかもしれませんが、AとBの合計のランクは、それぞれの個々のランクの合計よりも高くなります。これを以下のように形式化することができます:

LoRaはこれらの2つのパラメータセットのみをトレーニングしました。ただし、複数回リセットしてトレーニングし、元の高ランクネットワークに連続してマージすることができれば、ネットワークの総ランクを時間とともに増やすことができます。つまり、より大きなモデルを得ることができます。

なぜLoRaはこれらのリセットを行わないのでしょうか?

なぜなら、これらのリセットを有益にするためにはいくつかの重要な障害が存在するからです…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

企業がOpenAIのChatGPTに類似した自社の大規模言語モデルを構築する方法

最近の数年間で、言語モデルは大きな注目を集め、自然言語処理、コンテンツ生成、仮想アシスタントなど、さまざまな分野を革...

AIニュース

ChatGPTコードインタープリタープラグインの使用方法10選

「待ち望まれていたChatGPTコードインタープリタープラグインがついに展開されています以下に、それを使ってできることを紹介...

人工知能

「学生として、私がChatGPTを使って生産性を10倍にする方法」

現代の忙しい世界では、学生たちは常に生産性と効率を高める方法を求めています私自身も学生であり、一日中とても忙しかった...

データサイエンス

イノベーションを推進するための重要なツール:データレイクハウスにおけるジェネラティブAIの向上

LLMおよびジェネレーティブAIアプリの登場により、データは全エコシステムの中心的な要素となっています本記事では、データレ...

機械学習

アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となって...

人工知能

「トップ5のAIウェブスクレイピングプラットフォーム」

データの重要性への認識は、その膨大な収集へとつながりました。最初のステップは、組織が作業を進め、潜在能力を活用するた...