新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法

AI論文による新たな発見:CMUとGoogleの研究者が言語モデルの革新的な改良、一時停止トークンを用いた回答の遅延がQAや推論のパフォーマンスを進化させる方法

トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを受け取り、各隠れ層でK個の中間ベクトルを反復的に計算して(K + 1)番目のトークンを生成します。モジュールは前のレイヤーの出力ベクトルに作用し、各ベクトルはそれ自体がモジュールの出力です。全体の手順の複雑さにもかかわらず、次のトークンを決定するために必要な操作の数は、すでに表示されたトークンの数で制約されなければなりません。

カーネギーメロン大学とGoogleによる最近の研究では、デコーダのみのモデルの入力に偽のトークンを追加して出力を遅らせる戦略を調査しました。この研究では、(学習可能な)一時停止トークンを選択し、それを一度以上の連続したシーケンスで入力に追加することにしました。最後のトークンが表示された後のモデルの答えを得るために、それまでの一致する出力は単純に無視します。

重要なのは、研究者たちは、このような遅延を推論時およびダウンストリームの組織微調整および事前学習時に挿入することを考えています。この表面上小さな調整が現実世界でどのような効果をもたらすかは現時点ではわかりません。遅延は、トランスフォーマーが利用できる「広い」計算チャネルを作成します。より単純な結果としては、モデルがトークンによる遅延の能力を無視し、実行を継続する可能性があります。トークン自体も、単一のトークンを埋め込むことによって導入されるわずかな新しいパラメータの数も、トレーニングデータから追加の情報をエンコードするのに適切ではありません。これらの意味のないトークンは、有用な信号を不明確にし、モデルを弱体化させる可能性があります。

チームは、すべてのトレーニングおよび推論フェーズで(追加)遅延を導入した場合の結果を理解するために実証的な評価を行いました。彼らは、C4 (Raffel et al., 2019) で初めにトレーニングされ、抽出型質問回答、推論、一般的な理解、事実の回想をカバーする9つのダウンストリームタスクで微調整された10億パラメータのデコーダのみモデルに休止トレーニングを行った。最も重要なことは、この方法により、SQuAD抽出型質問回答タスクで1Bモデルの完全一致スコアが18%向上しました。同様に、CommonSense QAの一般的な理解タスクで8%の向上と、GSM8kの推論タスクで標準モデルの正確さ7.5%に対する1%の精度向上が観察されました。

一方、トークンが最終的な微調整段階のみで導入される場合(ベースラインの事前学習モデルを使用)、改善はごく一部のケースで見られます。チームはまた、以下の重要な欠点を含む一連の実験も行いました:

  1. トークンを追加することが一般的に前置することよりも優れていることを発見しました。
  2. 任意のダウンストリームタスクに対して最適なトークンの数があることを発見しました。
  3. 推論時のトークン数を減らすことが、優雅なパフォーマンスの低下につながることを発見しました。

チームは、通常の事前学習モデルで遅延を直接役立たせる方法の開発が、次の重要なステップであると考えています。彼らは、遅延次のトークン予測のパラダイムを拡張することで、新たな理論的および応用研究の方向性が開かれると予想しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ロボットスキル合成のための言語から報酬への変換

Googleの研究科学者、Wenhao YuとFei Xiaによる投稿 エンドユーザーがロボットに新しいタスクを教えるためのインタラクティブ...

AI研究

MITの科学者たちは、生物学の研究のためのAIモデルを生成できるシステムを構築しました

BioAutoMATEDとは、オープンソースの自動化された機械学習プラットフォームであり、研究室において人工知能を民主化すること...

データサイエンス

「ジョンズホプキンスのこの論文は、時間と望遠鏡を超えて宇宙の発見の確率的カタログマッチングを加速させるデータサイエンスの役割を強調しています」

宇宙研究において、同じ星や銀河が異なる天空調査で見つかるかどうかという問題があります。現在の望遠鏡は、さまざまな種類...

機械学習

「LeNetのマスタリング:アーキテクチャの洞察と実践的な実装」

はじめに LeNet-5は、1990年代にYann LeCunと彼のチームによって開発された画期的な畳み込みニューラルネットワーク(CNN)で...

機械学習

このAI論文は、言語エージェントのための自然言語とコードの調和を目指して、LemurとLemur Chatを紹介しています

広義では、知的エージェントとは、周囲から収集したデータに基づいて知覚、判断、行動の能力を備えた自律問題解決者です。こ...