「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」

「トランスフォーマーが長い入力をどのように処理するのか?CMUとGoogleの研究者が新しい手法を発表(FIRE):相対位置エンコーディングの効果的な補間」

Transformerベースの言語モデルは、近年、自然言語処理(NLP)の領域を引き上げてきました。人間らしいテキストを理解し生成する能力により、さまざまなNLPタスクで画期的な改善がもたらされました。しかし、これらのモデルには重大な欠点があります。訓練中に遭遇したものよりも長い入力シーケンスにさらされると、パフォーマンスが明らかに低下する傾向があります。現実のアプリケーションにおいてより長い文脈を管理する能力を向上させる方法を見つける必要性が、この制限によって刺激されています。

Transformerアーキテクチャ自体は潜在的に異なる入力期間を処理する能力を持っていますが、トレーニング中に使用される位置エンコーディングによって長い入力の取り扱い能力が制限されることがあります。そこで、カーネギーメロン大学、Google Research、Google DeepMindの研究者チームは、Functional Interpolation for Relative Positional Encoding(FIRE)と呼ばれる独自のアプローチを導入しました。FIREの目的は、Transformerの長い文脈の一般化能力を向上させることです。これは、新たな進行的な補間と機能的な相対位置エンコーディングの組み合わせによって実現されています。

FIREの基本的なアイデアは、シーケンス内のトークンの配置を理解するためのTransformerモデルに柔軟性のある手段を提供することです。FIREは、事前定義された位置エンコーディングスキームの代わりに、位置情報をエンコードするための動的で学習可能なメカニズムを提供します。この戦略は重要です。なぜなら、モデルが遭遇する特定の文脈とシーケンスの長さに対して、位置の理解を修正および変更することができるからです。

FIREは、Kerple、Alibi、T5のRelative Positional Encoding(RPE)など、よく使用される相対位置エンコーディング技術の一部を概念的に説明する能力も持っています。これは、FIREが現行の手法とモデルとの互換性を保持しながら、パフォーマンスを向上させるということを示しています。

長い文脈の理解が重要な状況において、FIREを装備したモデルのパフォーマンスを評価するために、さまざまなベンチマークで実験が行われました。この評価では、ゼロショットの言語モデリングや長文入力の問題などがカバーされています。この新しい手法を使用した改良モデルは、長い文脈を扱う際の汎化性能においてより優れたパフォーマンスを示しました。これは、長いシーケンスが与えられた場合、個人はより意味のあるテキストを理解し生成する能力が高まることを意味し、実用的な状況で非常に有用なスキルです。

研究者たちは、主な貢献を次のようにまとめました。

  1. Alibi、Kerple、T5のRPEなど、一部の人気のある位置エンコーディング手法を含む、新しい機能的な相対位置エンコーディング手法であるFIREが導入されました。
  1. FIREは、さまざまなデータセットやベンチマークにおいて、ゼロショットとファインチューニングのシナリオで現行の技術を上回るパフォーマンスを示し、高い長さの汎化性能を発揮します。C4言語モデリングの問題において、最高のベースラインを2.28パープレキシティポイント上回り、その有用性を示しました。SCROLLSの長いテキストテストでも、他の手法を平均1ポイント以上上回ります。
  1. FIREの柔軟性により、ローカルおよび逆ローカルの位置バイアスの両方を捉える能力が向上し、学習された位置の埋め込みの視覚化によって示されます。

まとめると、FIREはTransformerモデルにおける持続的な問題に対する優れた解決策を提供します。相対位置エンコーディングは柔軟で学習可能な方法で取り組まれるため、これらのモデルは以前に経験したことのない長さの入力シーケンスに直面しても高いパフォーマンスで動作を続けることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AIプロジェクトが、アルゼンチンの軍事独裁政権下で行方不明になった子供たちの成人した顔を想像します」

アルゼンチンの広告宣伝家、サンティアゴ・バロス氏は、アプリを使用して、アルゼンチンの軍事独裁時代に両親から引き離され...

機械学習

カリフォルニア州での山火事との戦いにAIが役立つ方法

カリフォルニア州は、州を壊滅させた山火事に対抗する新たな武器、AIを手に入れました。 NVIDIAのGPUで訓練されたAIによって...

機械学習

「3Dで動作する魔法の筆:Blended-NeRFはニューラル放射場におけるゼロショットオブジェクト生成を行うAIモデルです」

ここ数年は、さまざまな分野でユーレカの瞬間が続いています。私たちは、革新的な手法が登場し、巨大な進歩がもたらされるの...

機械学習

自然言語処理:AIを通じて人間のコミュニケーションの力を解き放つ

この記事では、NLPの理解と進化について取り上げますAIがコミュニケーションの世界にどのように貢献できるかを学びましょう

データサイエンス

「SaaS AIの機能が堀や障壁なしでアプリケーションと出会う」

最近、いくつかのエンタープライズSaaS企業が創発型AI機能を発表しましたが、これは持続可能な競争上の優位性を欠いたAIスタ...

機械学習

「時間差学習と探索の重要性:図解ガイド」

最近、強化学習(RL)アルゴリズムは、タンパク質の折りたたみやドローンレースの超人レベルの到達、さらには統合などの研究...