「YaRNに会ってください:トランスフォーマーベースの言語モデルのコンテキストウィンドウを拡張するための計算効率の高い方法で、以前の方法よりもトークンが10倍少なく、トレーニングステップが2.5倍少なくて済みます」

Meet YaRN A computationally efficient method to extend the context window of Transformer-based language models. With 10 times fewer tokens and 2.5 times fewer training steps than previous methods.

Chat GPTのような大規模言語モデルは、テキストのより広範な文脈を考慮することができ、より一貫性のある文脈に即した応答を理解し生成することができます。これは、テキスト補完などのタスクにおいて、ドキュメント全体の文脈を理解することが重要な場合に特に役立ちます。

これらのモデルは、トークンが多くなる場合であっても、ドキュメント内の複雑な関係や依存関係を捉えることができます。GPT-3やGPT-4のような大規模言語モデルにおける文脈ウィンドウの拡張とは、モデルが言語を生成または理解する際に考慮するテキストまたはトークンの範囲を指します。これは、要約文書のようなタスクにおいて、ドキュメントを包括的に理解した上で要約を行う必要がある場合に価値があります。

Rotary position embedding(RoPE)は、モデルが順序データを処理し、シーケンス内の位置情報を捉える能力を向上させます。ただし、これらのモデルは、彼らが訓練されたシーケンスの長さを超えて一般化する必要があります。Nous Research、Eleuther AI、およびジュネーブ大学の研究者は、このようなモデルの文脈ウィンドウを効率的に拡張する方法であるYaRN(Yet another RoPE extension method)を提案しています。

RoPEは、複素数の回転を使用する回転位置埋め込みであり、モデルが固定された位置埋め込みだけに頼らずに位置情報を効果的にエンコードすることを可能にします。これにより、モデルは長距離の依存関係をより正確に捉えることができます。回転を制御するパラメータは、モデルの訓練プロセス中に学習されます。モデルは適応的に回転を調整して、トークン間の位置関係を最もよく捉えることができます。

彼らが行った手法は、文脈ウィンドウを拡張するために外部メモリメカニズムを使用する圧縮トランスフォーマです。彼らは外部メモリバンクから情報を保存し、取得することで、通常のウィンドウサイズを超えた文脈にアクセスすることができます。トランスフォーマのアーキテクチャの拡張により、メモリコンポーネントが開発され、モデルは過去のトークンや例から情報を保持し利用することができます。

彼らの実験では、YaRNはわずか400ステップのトレーニングでLLMの文脈ウィンドウの拡張を成功させました。これは、モデルの元の事前トレーニングコーパスの0.1%に相当し、25からの10倍の削減、および7からの2.5倍のトレーニングステップの削減です。これにより、追加の推論コストなしで非常に計算効率が高くなります。

全体的に、YaRNはすべての既存のRoPE補間手法を改善し、PIを置き換えるだけであり、実装努力も最小限です。微調整モデルは複数のベンチマークで元の機能を保持しながら、非常に大きなコンテキストサイズに対応することができます。将来の研究では、伝統的なNLPモデルと組み合わせることができるメモリ拡張が関与することができます。トランスフォーマベースのモデルは、外部メモリバンクを組み込むことで、質問応答や機械翻訳などの下流タスクに関連する情報をコンテキストに保存して利用することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AIテクノロジー

ウェブサイトのためにChatGPTに適切なテクニカルテキストを書かせる方法

「長いテキストを書くように依頼しないでくださいできるだけ多くの詳細と仕様を提供し、適切な言語を使用し、AIディテクター...

機械学習

ロボットが「グリップ」のアップグレードを取得:AO-Graspがロボットに物を落とさない技術を教えます!

近年、ロボットは製造業から医療まで、様々な産業でますます使用されています。しかし、彼らのタスクを遂行する効果は、環境...

データサイエンス

機械学習モデルの説明可能性:AIシステムへの信頼と理解の向上

AIを倫理的で信頼性のある方法で利用するためには、研究者はモデルの複雑さと解釈の容易さをバランスさせるための方法論の開...

AIニュース

「OpenAIはAIの安全性に対処するためにベンガルールで開発者ミートアップを計画中」

OpenAIは、AIチャットボットChatGPTの影響力のある力を持つ組織であり、2024年1月にベンガルールで開発者の集まりを開催する...

AIニュース

インドのBharatGPTがGoogleの注意を引く

人工知能は、さまざまな産業やセクターを革命化することで、私たちの生活の一部になりました。バーチャルアシスタントから自...

人工知能

「C# で GPT(一般目的テンプレート)を拡張しましょう」

この記事では、OpenAIを使用してGPTを作成し、AINIRO.IO Magic Cloudを使用して独自のC#コードで拡張する方法を示しています