「YaRNに会ってください:トランスフォーマーベースの言語モデルのコンテキストウィンドウを拡張するための計算効率の高い方法で、以前の方法よりもトークンが10倍少なく、トレーニングステップが2.5倍少なくて済みます」
Meet YaRN A computationally efficient method to extend the context window of Transformer-based language models. With 10 times fewer tokens and 2.5 times fewer training steps than previous methods.
Chat GPTのような大規模言語モデルは、テキストのより広範な文脈を考慮することができ、より一貫性のある文脈に即した応答を理解し生成することができます。これは、テキスト補完などのタスクにおいて、ドキュメント全体の文脈を理解することが重要な場合に特に役立ちます。
これらのモデルは、トークンが多くなる場合であっても、ドキュメント内の複雑な関係や依存関係を捉えることができます。GPT-3やGPT-4のような大規模言語モデルにおける文脈ウィンドウの拡張とは、モデルが言語を生成または理解する際に考慮するテキストまたはトークンの範囲を指します。これは、要約文書のようなタスクにおいて、ドキュメントを包括的に理解した上で要約を行う必要がある場合に価値があります。
Rotary position embedding(RoPE)は、モデルが順序データを処理し、シーケンス内の位置情報を捉える能力を向上させます。ただし、これらのモデルは、彼らが訓練されたシーケンスの長さを超えて一般化する必要があります。Nous Research、Eleuther AI、およびジュネーブ大学の研究者は、このようなモデルの文脈ウィンドウを効率的に拡張する方法であるYaRN(Yet another RoPE extension method)を提案しています。
- 「テンソル量子化:語られなかった物語」
- 「ステーブル拡散」は実際にどのように機能するのでしょうか?直感的な説明
- 「Amazon SageMaker Pipelinesを使用した機械学習ワークフローの構築のためのベストプラクティスとデザインパターン」
RoPEは、複素数の回転を使用する回転位置埋め込みであり、モデルが固定された位置埋め込みだけに頼らずに位置情報を効果的にエンコードすることを可能にします。これにより、モデルは長距離の依存関係をより正確に捉えることができます。回転を制御するパラメータは、モデルの訓練プロセス中に学習されます。モデルは適応的に回転を調整して、トークン間の位置関係を最もよく捉えることができます。
彼らが行った手法は、文脈ウィンドウを拡張するために外部メモリメカニズムを使用する圧縮トランスフォーマです。彼らは外部メモリバンクから情報を保存し、取得することで、通常のウィンドウサイズを超えた文脈にアクセスすることができます。トランスフォーマのアーキテクチャの拡張により、メモリコンポーネントが開発され、モデルは過去のトークンや例から情報を保持し利用することができます。
彼らの実験では、YaRNはわずか400ステップのトレーニングでLLMの文脈ウィンドウの拡張を成功させました。これは、モデルの元の事前トレーニングコーパスの0.1%に相当し、25からの10倍の削減、および7からの2.5倍のトレーニングステップの削減です。これにより、追加の推論コストなしで非常に計算効率が高くなります。
全体的に、YaRNはすべての既存のRoPE補間手法を改善し、PIを置き換えるだけであり、実装努力も最小限です。微調整モデルは複数のベンチマークで元の機能を保持しながら、非常に大きなコンテキストサイズに対応することができます。将来の研究では、伝統的なNLPモデルと組み合わせることができるメモリ拡張が関与することができます。トランスフォーマベースのモデルは、外部メモリバンクを組み込むことで、質問応答や機械翻訳などの下流タスクに関連する情報をコンテキストに保存して利用することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- BYOL(Bootstrap Your Own Latent)— コントラスティブな自己教示学習の代替手段
- 「生成AIにおけるLLMエージェントのデコーディングの機会と課題」
- 「AIとMLが高い需要になる10の理由」 1. ビッグデータの増加による需要の増加:ビッグデータの処理と分析にはAIとMLが必要です 2. 自動化の需要の増加:AIとMLは、自動化されたプロセスとタスクの実行に不可欠です 3. 予測能力の向上:AIとMLは、予測分析において非常に効果的です 4. パーソナライズされたエクスペリエンスの需要:AIとMLは、ユーザーの行動と嗜好を理解し、パーソナライズされたエクスペリエンスを提供するのに役立ちます 5. 自動運転技術の需要の増加:自動運転技術の発展にはAIとMLが不可欠です 6. セキュリティの需要の増加:AIとMLは、セキュリティ分野で新たな挑戦に対処するために使用されます 7. ヘルスケアの需要の増加:AIとMLは、病気の早期検出や治療計画の最適化など、医療分野で重要な役割を果たします 8. クラウドコンピューティングの需要の増加:AIとMLは、クラウドコンピューティングのパフォーマンスと効率を向上させるのに役立ちます 9. ロボティクスの需要の増加:AIとMLは、ロボットの自律性と学習能力を高めるのに使用されます 10. インターネットオブシングス(IoT)の需要の増加:AIとMLは、IoTデバイスのデータ分析と制御に重要な役割を果たします
- 「ChatGPTを再び視覚させる:このAIアプローチは、リンクコンテキスト学習を探求してマルチモーダル学習を可能にします」
- 「生成AIをめぐる旅」
- 上位10のLLM脆弱性
- 「LLaSMと出会う:音声と言語の指示に従うクロスモーダルな対話能力を持つエンドツーエンドで訓練された大規模なマルチモーダル音声言語モデル」