新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法

AI論文による新たな発見:CMUとGoogleの研究者が言語モデルの革新的な改良、一時停止トークンを用いた回答の遅延がQAや推論のパフォーマンスを進化させる方法

トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを受け取り、各隠れ層でK個の中間ベクトルを反復的に計算して(K + 1)番目のトークンを生成します。モジュールは前のレイヤーの出力ベクトルに作用し、各ベクトルはそれ自体がモジュールの出力です。全体の手順の複雑さにもかかわらず、次のトークンを決定するために必要な操作の数は、すでに表示されたトークンの数で制約されなければなりません。

カーネギーメロン大学とGoogleによる最近の研究では、デコーダのみのモデルの入力に偽のトークンを追加して出力を遅らせる戦略を調査しました。この研究では、(学習可能な)一時停止トークンを選択し、それを一度以上の連続したシーケンスで入力に追加することにしました。最後のトークンが表示された後のモデルの答えを得るために、それまでの一致する出力は単純に無視します。

重要なのは、研究者たちは、このような遅延を推論時およびダウンストリームの組織微調整および事前学習時に挿入することを考えています。この表面上小さな調整が現実世界でどのような効果をもたらすかは現時点ではわかりません。遅延は、トランスフォーマーが利用できる「広い」計算チャネルを作成します。より単純な結果としては、モデルがトークンによる遅延の能力を無視し、実行を継続する可能性があります。トークン自体も、単一のトークンを埋め込むことによって導入されるわずかな新しいパラメータの数も、トレーニングデータから追加の情報をエンコードするのに適切ではありません。これらの意味のないトークンは、有用な信号を不明確にし、モデルを弱体化させる可能性があります。

チームは、すべてのトレーニングおよび推論フェーズで(追加)遅延を導入した場合の結果を理解するために実証的な評価を行いました。彼らは、C4 (Raffel et al., 2019) で初めにトレーニングされ、抽出型質問回答、推論、一般的な理解、事実の回想をカバーする9つのダウンストリームタスクで微調整された10億パラメータのデコーダのみモデルに休止トレーニングを行った。最も重要なことは、この方法により、SQuAD抽出型質問回答タスクで1Bモデルの完全一致スコアが18%向上しました。同様に、CommonSense QAの一般的な理解タスクで8%の向上と、GSM8kの推論タスクで標準モデルの正確さ7.5%に対する1%の精度向上が観察されました。

一方、トークンが最終的な微調整段階のみで導入される場合(ベースラインの事前学習モデルを使用)、改善はごく一部のケースで見られます。チームはまた、以下の重要な欠点を含む一連の実験も行いました:

  1. トークンを追加することが一般的に前置することよりも優れていることを発見しました。
  2. 任意のダウンストリームタスクに対して最適なトークンの数があることを発見しました。
  3. 推論時のトークン数を減らすことが、優雅なパフォーマンスの低下につながることを発見しました。

チームは、通常の事前学習モデルで遅延を直接役立たせる方法の開発が、次の重要なステップであると考えています。彼らは、遅延次のトークン予測のパラダイムを拡張することで、新たな理論的および応用研究の方向性が開かれると予想しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

KAISTの研究者たちは、地面セグメンテーションを利用した堅牢なグローバル登録フレームワークであるQuatro++を導入しましたこれは、LiDAR SLAMにおけるループクロージングに利用されます

LIADR SLAMにおけるスパースネスと退化問題に取り組むため、KAISTの研究者が開発した堅牢なグローバル登録フレームワークであ...

機械学習

強化学習 価値反復の簡単な入門

価値反復(VI)は、通常、強化学習(RL)学習経路で最初に紹介されるアルゴリズムの一つですアルゴリズムの基本的な内容は、...

機械学習

「40以上のクールなAIツール(2023年7月)をチェックしてください」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオや画像を作成したい人向けのAIベースのツールです。ビデオ、写真...

データサイエンス

「データの血統と現代データ管理におけるその重要性」

データの系譜は、データの流れを理解し、品質、規制遵守、セキュリティを確保するために非常に重要ですそれは現代のデータ管...

機械学習

「NExT-GPTを紹介します:エンドツーエンドの汎用的な任意対任意のマルチモーダル大規模言語モデル(MM-LLM)」

マルチモーダルLLMは、音声、テキスト、および視覚入力を介したより自然で直感的なユーザーとAIシステムのコミュニケーション...

機械学習

このMITのAI論文では、ロボット操作に革新的な方法を紹介しています:エンコードされた特徴フィールドとビジョン言語モデルによる2Dから3Dのギャップの橋渡し

MITとAIおよび基礎相互作用研究所(IAIFI)の研究チームは、ロボットの操作に革新的なフレームワークを紹介し、予測不可能な...