GPT-4の詳細がリークされました!
GPT-4の詳細リーク!
多くの人々がGPT-4がなぜGPT-3よりも優れているのか疑問に思っています。それは世界中で話題になっています。現在最も期待されているAIモデルであり、人々はそれについてもっと知りたいと思っていました。OpenAIはGPT-4に関する情報を何も公開していませんでした。例えば、サイズ、データ、内部構造、またはトレーニングと構築方法などです。私たちは皆、なぜ彼らがこの情報を隠しているのか疑問に思っていました。
さて、GPT-4の詳細がリークされましたので、その詳細をお伝えします。
では、GPT-4についてどのような詳細がわかったのでしょうか?探ってみましょう…
- オンラインプライバシーのためのトップアドブロッカー(2023年)
- 「Llama 2が登場しました – Hugging Faceで手に入れましょう」
- 「俳優たちが、スタジオがAIレプリカを使用したいと主張している」と言われています
モデルのサイズ
大規模な言語モデル(LLM)は年々拡大しており、モデルのサイズもそれに反映されています。2022年時点で、GPT-3のモデルサイズは1兆であり、過去5年間で15,000倍増加しています。GPT-4はその前任者であるGPT-3の10倍のサイズであると言われています。おおよそ1.8兆のパラメータを持ち、120の層にまたがっています。GPT-4は120の層で構成されており、さまざまな複雑なタスクを実行することができる深いアーキテクチャであり、最も先進的なモデルの一つとなっています。
エキスパートの混合
OpenAIはMOE(エキスパートの混合)を使用しています。GPT-3は静的なモデルであるのに対し、GPTは8つの2200億パラメータモデルの混合です。これらの8つのモデルは異なるデータとタスクの分布でトレーニングされ、モデル内の16人のエキスパートを活用しています。各モデルはマルチレイヤーパーセプトロンのおおよそ1110億のパラメータを持ち、各エキスパートはコーディングやフォーマットなど特定の役割を担当しています。
エキスパートの混合は新しいものではなく、以前から存在していました。たとえば、Googleは質問のタイプに応じて異なるエキスパートにルーティングするエキスパート選択ルーティングを使用しています。
GPT-4は、例えばモデルを話題に沿って誘導するなどのために、おおよそ550億のパラメータを「attention」にのみ使用しています。
推論
推論はLLMが予測を行う方法についてのことです。GPT-4は他のモデルと比較して非常に良い結果を出しています。1つのトークンの生成のための前向き推論では、おおよそ2800億のパラメータとおおよそ560テラフロップス(GPUの性能を測定するための単位)が利用されると言われています。
データセット
GPT-4がどれだけのデータセットを使用しているかは、その性能や最先端のモデルであることから想像することができます。GPT-4はおおよそ13兆のトークン、おおよそ10兆の単語でトレーニングされていると述べられています。テキストベースのデータには2エポック、コードベースのデータには4エポックを使用しています。
実際のデータセットのサイズは不明ですが、これらのトークンの一部は再利用されたため、いくつかの兆のトークンを含んでいるとおおよその見積もりができます。内部的には、ScaleAIからのデータを微調整するための数百万行の指示もあります。
コンテキストの長さ
GPT-4の事前トレーニングのフェーズでは、コンテキストの長さに8千のトークンが使用されました。事前トレーニング後、シーケンスの長さは8千のトークンに基づいて微調整されました。
バッチサイズ
バッチサイズは、モデルが更新される前に処理されるサンプルの数を表します。バッチサイズは継続的に増加し、OpenAIは6000万のバッチサイズを使用しています。これはおおよそエキスパートごとに750万のトークンになります。実際のバッチサイズを求めるには、この数をシーケンスの長さで割る必要があります。
トレーニングコスト
これは多くの人々が興味を持つであろうトピックです – トレーニングコストです。GPT-4の構築とトレーニングは非常に高額だったことが想像できます。
OpenAIは、約2.1e25 FLOPS(1秒あたりの浮動小数点演算数)の計算能力を使用し、約25台のA100プロセッサを使用して、3ヶ月間でトレーニングするのにかかりました。GPT-4は、GPT-3.5よりも計算コストが約3倍高いと言われています。また、GPT-4のプロンプトに関するコストは、GPT-3に比べて約3倍高いと言われています。
例えば、OpenAIがクラウド上でA100 1時間あたり約1ドルでトレーニングを行った場合、この1時間のトレーニングコストは6300万ドルになったでしょう。
仮説的デコーディング
OpenAIは仮説的デコーディングを使用している可能性もあると言われています。キーワードは「可能性」ということです。これは、小さな高速モデルを使用してトークンをデコードし、それを大きなモデルに単一のバッチとしてフィードするということを意味しています。
つまり、小さなモデルからの予測が正しかった場合、大きなモデルもこれらの予測に同意するでしょう。ただし、大きなモデルが小さなモデルからの予測を拒否した場合、バッチの残りも破棄されます。
まとめ
このリークは、モデルのリークではなく、より高レベルなアーキテクチャのリークを反映しています。多くの人々が期待していたモデルのリークとは異なりますが、このような情報は、LLMの成長やGPT-4などのAIモデルの作成に必要な量について知る上でも依然として有用です。Nisha Aryaは、データサイエンティスト、フリーランスの技術ライターであり、VoAGIのコミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論ベースのデータサイエンスの知識を提供することに興味を持っています。また、人工知能が人間の寿命の延長にどのように役立つかを探求したいと考えています。彼女は積極的な学習者であり、他の人々を指導する一方で、自身の技術知識と執筆スキルを広げることを目指しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles