大規模言語モデルにおける文脈の長さの拡張

『大規模言語モデルの文脈拡張における文の長さ』

ラマをキリンに変える方法

著者による画像(AI生成のラマ)

コンテキストの長さは、モデルがテキストを生成する際に覚えられる最大トークン数を指します。より長いコンテキストウィンドウは、モデルがテキストの長距離依存関係をより良く理解することを可能にします。より長いコンテキストを持つモデルは、テキスト内で遠くにあるアイデアとの関連性を構築し、よりグローバルに一貫性のある出力を生成することができます。

トレーニング中、モデルはテキストデータをチャンクまたは固定長のウィンドウで処理します。長いコンテキストでトレーニングするためには、長いテキストを含む長文をトレーニングデータとして使用する必要があります。トレーニングシーケンスは、数千のトークンを含む文書、書籍、記事などを含まなければなりません。トレーニングデータの長さは、使用可能なコンテキストの長さに制限を設けます。

では、なぜより長いシーケンスでモデルをトレーニングしないのでしょうか?

そう簡単ではありません。

コンテキストの長さを増やすと、モデルが正確に予測する必要がある可能なトークンの組み合わせの数も増えます。これにより、より堅牢な長距離モデリングが可能になりますが、メモリと処理能力が必要となり、トレーニングコストが上がります。

最適化を行わずに計算すると、コンテキストの長さに比例して計算量が二次的に増加します。つまり、512トークンのモデルに比べて、4096トークンのモデルは計算量が64倍になります。

計算コストを削減するために疎なまたは近似的なアテンション手法を使用することもできますが、それがモデルの精度にも影響を与える可能性があります。

大規模コンテキスト言語モデルのトレーニングと使用には、以下の3つの主要な課題があります:

  • モデルに長いコンテキストを適合させること。
  • 推論とトレーニングの加速、時間をかけすぎないようにすること。
  • フルコンテキストを意識した高品質な推論を実現すること。

アテンションは複雑な操作です

アテンションメカニズムはトランスフォーマーモデルの基本的な要素です。これにより、シーケンスの異なる位置を関連付けてその表現を計算し、モデルがテキストの関連する部分に焦点を当て、より良く理解することが可能になります。長いシーケンスへのトランスフォーマーのスケーリングは、完全アテンションの二次計算量による課題に直面します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more