オープンソースLLMの歴史:ベースモデルの改善(パート2)
オープンソースLLMの進化:ベースモデルの改善(パート2)
LLaMA、MPT、Falcon、およびLLaMA-2がオープンソースのLLMを注目させました…
大規模言語モデル(LLM)に関するオープンソース研究は非常に貴重です。なぜなら、この技術は強力かつ影響力のあるものであり、民主化を目指しているからです。オープンソースのLLMは現在一般的に使用され、広く研究されていますが、この研究領域は初期の困難を乗り越えるのが困難でした。具体的には、オープンソースのLLMは最初は性能が低く、批判されることが多かったのです。この概要では、特にインパクトのある高性能の事前学習LLMが誰でも利用できるようになった一連の研究を調査します。言語モデルの事前学習は非常に高価ですが、ここで調査するモデルは特に影響力があります。これらの高性能ベースモデルが作成され、公開された後、多くの人々がこれらのモデルを追加コストなしで利用して研究を行うことができました。
「トレーニング手法の表面的な性質を考慮すると、LLMの能力は非常に注目に値します。」- [14]より引用
現在のシリーズ。この概要は、オープンソースのLLMの歴史に関する三部作の二部です。このシリーズの最初の部分では、オープンソースのLLM作成の初期の試みについて概説しました。ここでは、現在利用可能な最も人気のあるオープンソースのベースモデル(つまり、事前学習されているが微調整や整列はされていない言語モデル)を調査します。次回は、これらのモデルを微調整または整列させてさまざまな有用なアプリケーションを作成する方法について説明します。
オープンソースLLMの初期の日々
このシリーズの一部である第一部では、オープンソースのLLMに関する初期の研究では、OPTやBLOOMなどの重要なベースモデルが提案されたことを見ました。しかし、これらのモデルは、クローズドソースの事前学習モデル(例:GPT-3)と比べて非常に性能が低いと広く考えられていました。では、どうやって解決するのでしょうか?まず、LLMのトレーニングプロセスを詳しく見てみましょう。
トレーニングパイプライン。LLMは以下の図に示すように、複数のステップでトレーニングされます。まず、モデルを事前学習します…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ハイパーパラメータの調整:ニューラルネットワーク入門
- 「Pandasを使用したSpark上のPythonの並列化 並行性のオプション」
- 2023年のデータの求人市場を解読する:数字は過剰供給か機会を示唆しているのか?
- 「近似予測」によって特徴選択を劇的に高速化
- 「SPHINXをご紹介します:トレーニングタスク、データドメイン、および視覚的なエンベッディングをミキシングした多目的なマルチモーダル大規模言語モデル(MLLM)」
- 「AI言語モデルにおける迅速なエンジニアリングのマスタリング」
- 「『メジャーな第2波』をAIが探知、NVIDIAのCEOがiliadグループ幹部とのファイヤーサイドチャットで語る」というテキストです