LLaMA 皆のためのLLM!
LLM for everyone, LLaMA!
オープンソースで高性能な言語モデル
長年にわたり、ディープラーニングコミュニティはオープンさと透明性を受け入れ、HuggingFaceのような大規模なオープンソースプロジェクトを生み出してきました。ディープラーニングの中でも最も重要なアイデアの多く(例えば、トランスフォーマー[2]、自己教師あり学習など)は、公開されたコードリポジトリやArxivを通じてオンラインで公開されています。オープンソースは長い間一般的でしたが、大規模言語モデル(LLM)の人気(および商業的な応用可能性)により、最近ではこの傾向が問われるようになりました。
現在利用可能な最も強力なLLMの多くは、APIからのみアクセスできます(例:OpenAIやAnthropicから)。そのため、ソースコードやモデルパラメータは研究者や開発者にはアクセスできない状態です。私の目標は、LLMの現在のトレンドに関する道徳的な議論を引き起こすことではありませんが、この情報はこの記事のテーマであるオープンソースのLLMに関連しています。興味深いことに、すべての強力な言語基盤モデルが有料で提供されているわけではありません。LLaMAなどの一部のモデルは、オープンに利用可能でありながら非常に高性能です。これにより、ディープラーニングの研究コミュニティでのオープンさを維持しています。
LLaMAとは何ですか? LLaMAは単一のモデルではなく、サイズが70億から650億のパラメータを持つLLMのスイートです。Chinchilla[3]からのインスピレーションを受けて、これらのLLMは同等のモデルよりも少し小さいですが、事前学習が広範囲に行われています(つまり、モデルが小さいほどトークンが多い)し、パフォーマンスと推論効率の間のトレードオフの異なるモデルの多様なグループを提供することを目的として開発されています。LLaMAモデルは驚くほど優れたパフォーマンスを発揮します。たとえば、130億パラメータのモデルはGPT-3[4]とほぼ同等の性能を持ち、650億パラメータのモデルはしばしばPaLM[5]の性能を上回ります。
「GPT-4は、ライセンスされた、作成された、および公開されたデータソースから学習しました。これには公に利用可能な個人情報が含まれる場合があります。」— [6]より引用
印象的なパフォーマンスを超えて、LLaMAは事前トレーニングに公に利用可能なデータのみを使用しています。LLMの領域内でのオープンソースへの一歩(前進)を踏み出すことで、LLaMAモデルは完全にオンラインのリソースから再現することができます。GPT-4などの最近のモデルは、公開および…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles