「GPT4の32Kを忘れてください:LongNetは10億トークンのコンテキストを持っています」

Forget about GPT4's 32K LongNet has a context of 1 billion tokens.

GPT-3とGPT-4の2048、4096、32768トークンのコンテキストの制限に疲れましたか?マイクロソフトはあなたに答えを持っているかもしれません(ポジティブな見方)

7月19日、マイクロソフトは、実用的に無制限のコンテキスト長を持つ大規模な言語モデルの開発において、大きな進歩と見なされている論文を発表しました。マイクロソフトは、理論的に10億トークンまでスケーリングできるトランスフォーマーモデルを提案・開発しました。これにより、大規模な言語モデルの実用的な使用例である「コンテキスト長制限」が取り除かれました。

この記事では、以下の内容を説明します。

  1. 大規模な言語モデル(LLM)
  2. 覚えていますか?コンテキストは重要です
  3. より大きなコンテキストを実現する方法
  4. 現在のLLM用ネットワーク
  5. スケーリングの難しさ
  6. マイクロソフトの解決策LongNet
  7. 分散トレーナー
  8. 1Bトークンへのスケーリングの結果と検証
  9. まとめ

それでは、始めましょう。

大規模な言語モデル(LLM)

大規模な言語モデルは、深層学習モデルであり、数百万、場合によっては数十億のパラメータを持っています。これらのモデルは一般的にインターネットからの「一般のテキスト」コーパスで訓練されます。このようなコーパスは最大で1兆のトークンを持つ場合があります(つまり、インターネット上に存在するテキストは、大規模な言語モデルの訓練に使用されました)。

与えられた文字列内の各単語が他の単語と接続された大きな行列を想像してみてください。簡単に言えば、これがセルフアテンションです。より強い関係を持つ単語や単語の配置に関心があります。なぜなら、弱い関係よりも次の単語をより良く予測できるからです。関係は3層深くても30層深くても、大局的な観点では問題ありません。重要なのは、セルフアテンションが(少なくとも一部では)次のトークンを決定することです。トークンは単語または単語の一部であり、文の機能的な単位の同義語としてよく使用されます。

したがって、大規模な言語モデルは、入力テキストを与えると、その地図に基づいて出力が生成される言語の地図を作成します。この地図は非常に複雑です。この地図は一般的に次のように表されます…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

人工知能

「ElaiのCEO&共同創業者、Vitalii Romanchenkoについてのインタビューシリーズ」

ヴィタリー・ロマンチェンコは、ElaiのCEO兼共同創設者であり、マイク、カメラ、俳優、スタジオの必要なく、個人が一流のビデ...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...