「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」

「トランスフォーマーが長い入力をどのように処理するのか?CMUとGoogleの研究者が新しい手法を発表(FIRE):相対位置エンコーディングの効果的な補間」

Transformerベースの言語モデルは、近年、自然言語処理(NLP)の領域を引き上げてきました。人間らしいテキストを理解し生成する能力により、さまざまなNLPタスクで画期的な改善がもたらされました。しかし、これらのモデルには重大な欠点があります。訓練中に遭遇したものよりも長い入力シーケンスにさらされると、パフォーマンスが明らかに低下する傾向があります。現実のアプリケーションにおいてより長い文脈を管理する能力を向上させる方法を見つける必要性が、この制限によって刺激されています。

Transformerアーキテクチャ自体は潜在的に異なる入力期間を処理する能力を持っていますが、トレーニング中に使用される位置エンコーディングによって長い入力の取り扱い能力が制限されることがあります。そこで、カーネギーメロン大学、Google Research、Google DeepMindの研究者チームは、Functional Interpolation for Relative Positional Encoding(FIRE)と呼ばれる独自のアプローチを導入しました。FIREの目的は、Transformerの長い文脈の一般化能力を向上させることです。これは、新たな進行的な補間と機能的な相対位置エンコーディングの組み合わせによって実現されています。

FIREの基本的なアイデアは、シーケンス内のトークンの配置を理解するためのTransformerモデルに柔軟性のある手段を提供することです。FIREは、事前定義された位置エンコーディングスキームの代わりに、位置情報をエンコードするための動的で学習可能なメカニズムを提供します。この戦略は重要です。なぜなら、モデルが遭遇する特定の文脈とシーケンスの長さに対して、位置の理解を修正および変更することができるからです。

FIREは、Kerple、Alibi、T5のRelative Positional Encoding(RPE)など、よく使用される相対位置エンコーディング技術の一部を概念的に説明する能力も持っています。これは、FIREが現行の手法とモデルとの互換性を保持しながら、パフォーマンスを向上させるということを示しています。

長い文脈の理解が重要な状況において、FIREを装備したモデルのパフォーマンスを評価するために、さまざまなベンチマークで実験が行われました。この評価では、ゼロショットの言語モデリングや長文入力の問題などがカバーされています。この新しい手法を使用した改良モデルは、長い文脈を扱う際の汎化性能においてより優れたパフォーマンスを示しました。これは、長いシーケンスが与えられた場合、個人はより意味のあるテキストを理解し生成する能力が高まることを意味し、実用的な状況で非常に有用なスキルです。

研究者たちは、主な貢献を次のようにまとめました。

  1. Alibi、Kerple、T5のRPEなど、一部の人気のある位置エンコーディング手法を含む、新しい機能的な相対位置エンコーディング手法であるFIREが導入されました。
  1. FIREは、さまざまなデータセットやベンチマークにおいて、ゼロショットとファインチューニングのシナリオで現行の技術を上回るパフォーマンスを示し、高い長さの汎化性能を発揮します。C4言語モデリングの問題において、最高のベースラインを2.28パープレキシティポイント上回り、その有用性を示しました。SCROLLSの長いテキストテストでも、他の手法を平均1ポイント以上上回ります。
  1. FIREの柔軟性により、ローカルおよび逆ローカルの位置バイアスの両方を捉える能力が向上し、学習された位置の埋め込みの視覚化によって示されます。

まとめると、FIREはTransformerモデルにおける持続的な問題に対する優れた解決策を提供します。相対位置エンコーディングは柔軟で学習可能な方法で取り組まれるため、これらのモデルは以前に経験したことのない長さの入力シーケンスに直面しても高いパフォーマンスで動作を続けることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AI安全サミットに参加した国々によるブレッチリーデクラレーション」

「既存のフォーラやその他の関連プロジェクトにおいて、AIシステムの潜在的な影響を検討し、対策するための関連する国際的な...

機械学習

「リアルAI社が、ヨーロッパのオープンソースの大規模言語モデルの構築プロジェクトに勝利」

2023年11月23日(木)、ベルグラードで開催されたデータサイエンスカンファレンス2023で、Real AIがISCRAプロジェクトを受賞...

人工知能

AIとオープンソースソフトウェア:誕生時に分かれたか?

この記事では、ルイスがオープンソースソフトウェアと機械学習の交差点と将来について読者と共有します多くの記事が機械学習...

データサイエンス

トップ7の列操作でより効果的にPandasデータフレームを使用する

データ分析に関しては、データを操作して準備するために最もよく使用されるPythonライブラリはPandasですでは、列に対するト...

AI研究

このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています

“` 2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリッ...

AI研究

ChatGPTの哲学コース:このAI研究は、対話エージェントのLLMの振る舞いを探究します

2023年はLLMの年です。ChatGPT、GPT-4、LLaMAなど、新しいLLMモデルが続々と注目を集めています。これらのモデルは自然言語処...