「オープンソースLLMsの歴史:初期の日々(パート1)」

「オープンソースLLMsの歴史:始まりの日々(パート1)」

GPT-Neo、GPT-J、GLM、OPT、BLOOMなどの理解

(Photo by Chris Lawton on Unsplash)

言語モデリングの研究は、GTPやGPT-2、RNNベースの技術(例:ULMFit)など、現代のトランスフォーマーベースの言語モデルよりも前にさかのぼる長い歴史があります。しかし、この長い歴史にもかかわらず、言語モデルは比較的最近になって人気が出始めました。人気が最初に高まったのは、GPT-3 [1]の提案とともに、自己教示学習と文脈学習の組み合わせにより、多くのタスクで印象的なフューショット学習の性能が実現できることが示されたためです。以下を参照してください。

(from [1])

この後、GPT-3による認識の獲得は、大規模な言語モデル(LLM)の提案につながりました。それから間もなくして、言語モデルのアラインメントに関する研究は、InstructGPT [19]や特にその姉妹モデルであるChatGPTなど、さらに印象的なモデルの創造につながりました。これらのモデルの印象的な性能は、言語モデリングと生成型AIへの関心の洪水を引き起こしました。

非常にパワフルであるにもかかわらず、LLM研究の初期の進展には共通の特性があります-それらはクローズドソースです。言語モデルが広く認識されるようになった当初、最もパワフルなLLMは有料のAPI(たとえば、OpenAI API)を介してのみアクセスでき、そのようなモデルの研究や開発は特定の個人や研究室に制限されました。このようなアプローチは、通常のAI研究のプラクティスとは異なり、進歩を促進するために公開やアイデアの共有が通常奨励されるものです。

「この制限されたアクセスは、大規模言語モデルの動作の仕組みや理由を理解するための研究者の能力を制限し、偏見や有害性など既知の問題を改善するための取り組みの進展を妨げています。」- [4]より引用

この概要。独自技術への初期の注力にもかかわらず、LLM研究共同体は徐々にGPT-3などの人気のある言語モデルのオープンソースバリアントを作り始めました。最初のオープンソース言語モデルは最高の独自モデルには劣っていましたが、彼らは基盤を築きました…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more