オープンソースLLMの歴史:ベースモデルの改善(パート2)

オープンソースLLMの進化:ベースモデルの改善(パート2)

LLaMA、MPT、Falcon、およびLLaMA-2がオープンソースのLLMを注目させました…

(Iñaki del Olmo氏による写真、Unsplashからの引用)

大規模言語モデル(LLM)に関するオープンソース研究は非常に貴重です。なぜなら、この技術は強力かつ影響力のあるものであり、民主化を目指しているからです。オープンソースのLLMは現在一般的に使用され、広く研究されていますが、この研究領域は初期の困難を乗り越えるのが困難でした。具体的には、オープンソースのLLMは最初は性能が低く、批判されることが多かったのです。この概要では、特にインパクトのある高性能の事前学習LLMが誰でも利用できるようになった一連の研究を調査します。言語モデルの事前学習は非常に高価ですが、ここで調査するモデルは特に影響力があります。これらの高性能ベースモデルが作成され、公開された後、多くの人々がこれらのモデルを追加コストなしで利用して研究を行うことができました。

「トレーニング手法の表面的な性質を考慮すると、LLMの能力は非常に注目に値します。」- [14]より引用

現在のシリーズ。この概要は、オープンソースのLLMの歴史に関する三部作の二部です。このシリーズの最初の部分では、オープンソースのLLM作成の初期の試みについて概説しました。ここでは、現在利用可能な最も人気のあるオープンソースのベースモデル(つまり、事前学習されているが微調整や整列はされていない言語モデル)を調査します。次回は、これらのモデルを微調整または整列させてさまざまな有用なアプリケーションを作成する方法について説明します。

([10, 12, 14, 15]から引用)

オープンソースLLMの初期の日々

このシリーズの一部である第一部では、オープンソースのLLMに関する初期の研究では、OPTやBLOOMなどの重要なベースモデルが提案されたことを見ました。しかし、これらのモデルは、クローズドソースの事前学習モデル(例:GPT-3)と比べて非常に性能が低いと広く考えられていました。では、どうやって解決するのでしょうか?まず、LLMのトレーニングプロセスを詳しく見てみましょう。

トレーニングパイプライン。LLMは以下の図に示すように、複数のステップでトレーニングされます。まず、モデルを事前学習します…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more