新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法
AI論文による新たな発見:CMUとGoogleの研究者が言語モデルの革新的な改良、一時停止トークンを用いた回答の遅延がQAや推論のパフォーマンスを進化させる方法
トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを受け取り、各隠れ層でK個の中間ベクトルを反復的に計算して(K + 1)番目のトークンを生成します。モジュールは前のレイヤーの出力ベクトルに作用し、各ベクトルはそれ自体がモジュールの出力です。全体の手順の複雑さにもかかわらず、次のトークンを決定するために必要な操作の数は、すでに表示されたトークンの数で制約されなければなりません。
カーネギーメロン大学とGoogleによる最近の研究では、デコーダのみのモデルの入力に偽のトークンを追加して出力を遅らせる戦略を調査しました。この研究では、(学習可能な)一時停止トークンを選択し、それを一度以上の連続したシーケンスで入力に追加することにしました。最後のトークンが表示された後のモデルの答えを得るために、それまでの一致する出力は単純に無視します。
重要なのは、研究者たちは、このような遅延を推論時およびダウンストリームの組織微調整および事前学習時に挿入することを考えています。この表面上小さな調整が現実世界でどのような効果をもたらすかは現時点ではわかりません。遅延は、トランスフォーマーが利用できる「広い」計算チャネルを作成します。より単純な結果としては、モデルがトークンによる遅延の能力を無視し、実行を継続する可能性があります。トークン自体も、単一のトークンを埋め込むことによって導入されるわずかな新しいパラメータの数も、トレーニングデータから追加の情報をエンコードするのに適切ではありません。これらの意味のないトークンは、有用な信号を不明確にし、モデルを弱体化させる可能性があります。
- ノースウェスタン大学の研究者たちは、最初の人工知能(AI)システムを開発しましたこのシステムは、ゼロからロボットを知的に設計することができます
- スタンフォード大学研究者が提案するMAPTree:強化された堅牢性とパフォーマンスを備えたベイジアンアプローチに基づく決定木生成
- ITUデンマークの研究者は、神経発達プログラムを紹介:生物の成長と人工ニューラルネットワークとの間のギャップを埋める
チームは、すべてのトレーニングおよび推論フェーズで(追加)遅延を導入した場合の結果を理解するために実証的な評価を行いました。彼らは、C4 (Raffel et al., 2019) で初めにトレーニングされ、抽出型質問回答、推論、一般的な理解、事実の回想をカバーする9つのダウンストリームタスクで微調整された10億パラメータのデコーダのみモデルに休止トレーニングを行った。最も重要なことは、この方法により、SQuAD抽出型質問回答タスクで1Bモデルの完全一致スコアが18%向上しました。同様に、CommonSense QAの一般的な理解タスクで8%の向上と、GSM8kの推論タスクで標準モデルの正確さ7.5%に対する1%の精度向上が観察されました。
一方、トークンが最終的な微調整段階のみで導入される場合(ベースラインの事前学習モデルを使用)、改善はごく一部のケースで見られます。チームはまた、以下の重要な欠点を含む一連の実験も行いました:
- トークンを追加することが一般的に前置することよりも優れていることを発見しました。
- 任意のダウンストリームタスクに対して最適なトークンの数があることを発見しました。
- 推論時のトークン数を減らすことが、優雅なパフォーマンスの低下につながることを発見しました。
チームは、通常の事前学習モデルで遅延を直接役立たせる方法の開発が、次の重要なステップであると考えています。彼らは、遅延次のトークン予測のパラダイムを拡張することで、新たな理論的および応用研究の方向性が開かれると予想しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Google DeepMindの研究者が『プロンプトブリーダー』を紹介:与えられたドメイン内で自己言及的かつ自己向上型AIシステムで、効果的なドメイン固有のプロンプトを自動的に進化させることができます」というものです
- 「地震をAIで把握する:研究者が深層学習モデルを公開、予測の精度を向上」
- 「MITの研究者がPFGM++を紹介:物理学とAIの画期的な融合による高度なパターン生成」
- ETHチューリッヒとマイクロソフトの研究者が、大規模な言語モデルの推論を強化するための人工知能フレームワーク「SCREWS」を紹介しました
- メタAIの研究者がRA-DITを導入:知識集約型タスクのための高度な検索機能を持つ言語モデルの改善のための新しい人工知能アプローチとして
- メタAI研究者が高度な長文脈LLMsを提案します:アップサンプリング、トレーニングテクニック、およびGPT-3.5-Turbo-16kの性能を超えるための深い探求
- 清华大学和微软研究人员推出ToRA:用于数学问题解决的人工智能工具集成推理代理