「YaRNに会ってください:トランスフォーマーベースの言語モデルのコンテキストウィンドウを拡張するための計算効率の高い方法で、以前の方法よりもトークンが10倍少なく、トレーニングステップが2.5倍少なくて済みます」

Meet YaRN A computationally efficient method to extend the context window of Transformer-based language models. With 10 times fewer tokens and 2.5 times fewer training steps than previous methods.

Chat GPTのような大規模言語モデルは、テキストのより広範な文脈を考慮することができ、より一貫性のある文脈に即した応答を理解し生成することができます。これは、テキスト補完などのタスクにおいて、ドキュメント全体の文脈を理解することが重要な場合に特に役立ちます。

これらのモデルは、トークンが多くなる場合であっても、ドキュメント内の複雑な関係や依存関係を捉えることができます。GPT-3やGPT-4のような大規模言語モデルにおける文脈ウィンドウの拡張とは、モデルが言語を生成または理解する際に考慮するテキストまたはトークンの範囲を指します。これは、要約文書のようなタスクにおいて、ドキュメントを包括的に理解した上で要約を行う必要がある場合に価値があります。

Rotary position embedding(RoPE)は、モデルが順序データを処理し、シーケンス内の位置情報を捉える能力を向上させます。ただし、これらのモデルは、彼らが訓練されたシーケンスの長さを超えて一般化する必要があります。Nous Research、Eleuther AI、およびジュネーブ大学の研究者は、このようなモデルの文脈ウィンドウを効率的に拡張する方法であるYaRN(Yet another RoPE extension method)を提案しています。

RoPEは、複素数の回転を使用する回転位置埋め込みであり、モデルが固定された位置埋め込みだけに頼らずに位置情報を効果的にエンコードすることを可能にします。これにより、モデルは長距離の依存関係をより正確に捉えることができます。回転を制御するパラメータは、モデルの訓練プロセス中に学習されます。モデルは適応的に回転を調整して、トークン間の位置関係を最もよく捉えることができます。

彼らが行った手法は、文脈ウィンドウを拡張するために外部メモリメカニズムを使用する圧縮トランスフォーマです。彼らは外部メモリバンクから情報を保存し、取得することで、通常のウィンドウサイズを超えた文脈にアクセスすることができます。トランスフォーマのアーキテクチャの拡張により、メモリコンポーネントが開発され、モデルは過去のトークンや例から情報を保持し利用することができます。

彼らの実験では、YaRNはわずか400ステップのトレーニングでLLMの文脈ウィンドウの拡張を成功させました。これは、モデルの元の事前トレーニングコーパスの0.1%に相当し、25からの10倍の削減、および7からの2.5倍のトレーニングステップの削減です。これにより、追加の推論コストなしで非常に計算効率が高くなります。

全体的に、YaRNはすべての既存のRoPE補間手法を改善し、PIを置き換えるだけであり、実装努力も最小限です。微調整モデルは複数のベンチマークで元の機能を保持しながら、非常に大きなコンテキストサイズに対応することができます。将来の研究では、伝統的なNLPモデルと組み合わせることができるメモリ拡張が関与することができます。トランスフォーマベースのモデルは、外部メモリバンクを組み込むことで、質問応答や機械翻訳などの下流タスクに関連する情報をコンテキストに保存して利用することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

人工知能

ネットワークの強化:異常検知のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そしてディープラーニング技術が、異常を精度良く検出することでネットワークセキュリティを向上させ...

データサイエンス

「Langchainとは何ですか?そして、大規模言語モデルとは何ですか?」

この包括的な記事では、LangChainとLarge Language Modelsの両方を探求します両方を理解するために、簡単なチュートリアルを...

AIニュース

「AIのための機会の議題」

今日は、できる限り多くの人々に利益をもたらすための具体的な政策提言を提供するためのAI機会アジェンダを共有しています

AIニュース

無料でWindows 11を提供するChatGPTの方法を見つけよう!

ChatGPTのユーザーたちは、Microsoft Windows 11 Proを含む人気のソフトウェアの無料ライセンスキーにアクセスするための驚く...

AIニュース

スタビリティAIのスタブルディフュージョンXL 1.0:AI画像生成の画期的なブレークスルー

先進的なAIスタートアップであるStability AIは、Stable Diffusion XL 1.0のローンチにより、再び生成型AIモデルの限界に挑戦...

機械学習

DeepMindのAIマスターゲーマー:2時間で26のゲームを学習

強化学習は、Google DeepMindの中核的な研究分野であり、AIを用いて実世界の問題を解決するための膨大な可能性を秘めています...