ファルコン:オープンソースLLMの頂点

美とファッションの専門家が繊細で活気に満ちた記事を執筆することで知られています

オープンソースとプロプライエタリなLLM間の差はますます縮まっています…

(Alan Mersom氏による写真、Unsplashより引用)

最近のオープンソースの大規模言語モデル(LLM)の研究は、主に模倣学習とオープンソースのベースモデルの事前トレーニングの2つの領域に焦点を当てています。両方のアプローチは有効ですが、高品質のオープンソースのベースモデルの作成は特に魅力的です。これらのモデルは、さらに低コストで微調整が可能であり、さまざまな異なる下流アプリケーションで使用することができるからです。初期のモデルの作成試みは失敗しました。ただし、後のモデル(たとえばLLaMAとMPT-7B)ははるかに優れたパフォーマンスを発揮しますが、これらのモデルは最近まで、プロプライエタリな対応モデル(たとえばGPT-3.5またはGPT-4)と品質が同等であることに苦戦してきました。

Falcon-7BとFalcon-40B LLMのリリースにより、有料モデルと同等の品質を備えた初めてのオープンソースベースのLLMが登場しました [1]。革新的なデータパイプラインを介して入手した大量のテキストコーパスでトレーニングされたこれらのモデルは、オープンソースのLLMの中で最新のパフォーマンスを(かなりのマージンで)達成し、商用アプリケーションで無料で使用できます。さらに、Falconモデルは、事前トレーニングの効率を大幅に向上させるための基本となるトランスフォーマーアーキテクチャにいくつかの修正を採用しています。

([1、2]から引用)

全体像。 LLMの作成プロセスはいくつかのステップで構成されています。下記をご覧ください。このプロセスの最初のステップ(つまり、事前トレーニングされたベースモデルの入手)は、お金と時間の両方の面で最も高価なものと広く認識されています。

LLMの作成と改善のための多段階プロセス([16、17]から引用)

このようなモデルはかつてはプロプライエタリAPIの背後に隠されていましたが、オープンソースのLLMの進歩により、高性能なベースLLMがより一般に利用可能になりました。Falconもこのカテゴリーのモデルであり、他のオープンソースの代替品と比較して前例のないパフォーマンスレベルを達成しています。

ウェブデータを使用したLLMの事前トレーニング

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more