新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法

AI論文による新たな発見:CMUとGoogleの研究者が言語モデルの革新的な改良、一時停止トークンを用いた回答の遅延がQAや推論のパフォーマンスを進化させる方法

トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを受け取り、各隠れ層でK個の中間ベクトルを反復的に計算して(K + 1)番目のトークンを生成します。モジュールは前のレイヤーの出力ベクトルに作用し、各ベクトルはそれ自体がモジュールの出力です。全体の手順の複雑さにもかかわらず、次のトークンを決定するために必要な操作の数は、すでに表示されたトークンの数で制約されなければなりません。

カーネギーメロン大学とGoogleによる最近の研究では、デコーダのみのモデルの入力に偽のトークンを追加して出力を遅らせる戦略を調査しました。この研究では、(学習可能な)一時停止トークンを選択し、それを一度以上の連続したシーケンスで入力に追加することにしました。最後のトークンが表示された後のモデルの答えを得るために、それまでの一致する出力は単純に無視します。

重要なのは、研究者たちは、このような遅延を推論時およびダウンストリームの組織微調整および事前学習時に挿入することを考えています。この表面上小さな調整が現実世界でどのような効果をもたらすかは現時点ではわかりません。遅延は、トランスフォーマーが利用できる「広い」計算チャネルを作成します。より単純な結果としては、モデルがトークンによる遅延の能力を無視し、実行を継続する可能性があります。トークン自体も、単一のトークンを埋め込むことによって導入されるわずかな新しいパラメータの数も、トレーニングデータから追加の情報をエンコードするのに適切ではありません。これらの意味のないトークンは、有用な信号を不明確にし、モデルを弱体化させる可能性があります。

チームは、すべてのトレーニングおよび推論フェーズで(追加)遅延を導入した場合の結果を理解するために実証的な評価を行いました。彼らは、C4 (Raffel et al., 2019) で初めにトレーニングされ、抽出型質問回答、推論、一般的な理解、事実の回想をカバーする9つのダウンストリームタスクで微調整された10億パラメータのデコーダのみモデルに休止トレーニングを行った。最も重要なことは、この方法により、SQuAD抽出型質問回答タスクで1Bモデルの完全一致スコアが18%向上しました。同様に、CommonSense QAの一般的な理解タスクで8%の向上と、GSM8kの推論タスクで標準モデルの正確さ7.5%に対する1%の精度向上が観察されました。

一方、トークンが最終的な微調整段階のみで導入される場合(ベースラインの事前学習モデルを使用)、改善はごく一部のケースで見られます。チームはまた、以下の重要な欠点を含む一連の実験も行いました:

  1. トークンを追加することが一般的に前置することよりも優れていることを発見しました。
  2. 任意のダウンストリームタスクに対して最適なトークンの数があることを発見しました。
  3. 推論時のトークン数を減らすことが、優雅なパフォーマンスの低下につながることを発見しました。

チームは、通常の事前学習モデルで遅延を直接役立たせる方法の開発が、次の重要なステップであると考えています。彼らは、遅延次のトークン予測のパラダイムを拡張することで、新たな理論的および応用研究の方向性が開かれると予想しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

2024年にフォローすべきトップ10のデータサイエンスYouTubeチャンネル

イントロダクション データサイエンスは、プログラミング、統計学、ドメインの専門知識を組み合わせてデータから洞察力と知識...

機械学習

「岩石とAIの衝突:鉱物学とゼロショットコンピュータビジョンの交差点」

鉱物は、定義された化学組成と結晶構造を持つ天然の無機物です。彼らは岩の構成要素であり、さまざまな地質学的および産業プ...

AIニュース

「先進的なマルチモーダル生成AIの探求」

イントロダクション テクノロジーの進歩する現代において、興奮すべき展開が現れています – 高度なマルチモーダルジェ...

機械学習

DeepMind RoboCat:自己学習ロボットAIモデル

世界的に有名なAI研究所であるDeepMindは、ロボットアームの様々なモデルを使用して幅広い複雑なタスクを実行できるAIモデルR...

機械学習

「ステーブル拡散」は実際にどのように機能するのでしょうか?直感的な説明

この短い記事では、初心者に対して安定した拡散(Stable Diffusion)が直感的にどのように機能するかを説明していますこれは...

機械学習

理論から実践へ:k最近傍法分類器の構築

k-最近傍法分類器は、新しいデータポイントを、k個の最も近い隣人の中で最も一般的なクラスに割り当てる機械学習アルゴリズム...