UCIと浙江大学の研究者は、ドラフティングと検証のステージを使用した自己推測デコーディングによるロスレスな大規模言語モデルの高速化を紹介しました
UCIと浙江大学の研究者は、自己推測デコーディングを使用したロスレスな言語モデルの高速化を紹介しました
トランスフォーマーに基づく大規模言語モデル(LLM)は、GPT、PaLM、LLaMAなど、さまざまな実世界のアプリケーションで広く使用されています。これらのモデルは、テキスト生成、翻訳、自然言語解釈など、さまざまなタスクに適用されています。ただし、特に低遅延が重要な場合において、これらのモデルの推論コストが大きな懸念事項となっています。これらのモデルが使用する自己回帰デコーディング方式が、高い推論コストの主な原因です。自己回帰デコーディングでは、各出力トークンが順次生成されるため、多くのトランスフォーマー呼び出しがあります。各トランスフォーマー呼び出しのメモリ帯域幅は制限されており、効率の悪い計算と長い実行時間を引き起こします。
大規模言語モデル(LLM)の推論プロセスを高速化するために、最近の研究では、補助モデルを必要としないユニークな手法であるセルフスペキュレーティブデコーディングを導入しています。この手法は、出力品質を保持しながら推論をより迅速に生成する問題に取り組んでいます。これは、起案と検証の2段階の手順を組み合わせることによって特徴付けられています。
- 起案ステージ – 起案ステージの目的は、従来の自己回帰方式を使用して生成されたトークンよりもわずかに品質が劣るドラフトトークンをより速く生成することです。このために、この手法では起案中にいくつかの中間層をバイパスします。LLMのこれらの中間層は出力を洗練するが、推論中に多くの時間とリソースを消費します。
- 検証ステージ – この手法は、起案ステージでドラフトの出力トークンを生成し、オリジナルの変更されていないLLMを使用してこれらのトークンを単一の順方向パスで検証します。従来の自己回帰デコーディング手法を使用した場合、LLMは同じ最終結果を生成するため、この検証ステップによって保証されます。したがって、起案ステージがトークンをより速く生成したとしても、最終的な品質は保持されます。
セルフスペキュレーティブデコーディングは、ニューラルネットワークの追加のトレーニングを必要としないため、その主な利点の1つです。既存の推論の高速化手法では、補助モデルのトレーニングやLLMのアーキテクチャの大幅な変更が一般的であり、これらは課題がありリソースを消費する要素です。一方、セルフスペキュレーティブデコーディングは、「プラグアンドプレイ」のアプローチであり、追加のトレーニングやモデルの変更なしに既存のLLMに追加できます。
- 「挑戦的に、マイクロソフトの研究者はGPT-4に「人工知能の火花」を見つけたと述べる」
- 「ヌガットモデルを使用した研究論文の生成AI」
- 「研究者たちが、チップベースのサーミオニック冷却を量子コンピュータに応用可能にしました」
この研究は、セルフスペキュレーティブデコーディングの有効性を実証する経験的なサポートを提供しています。ベンチマークの結果は、LLaMA-2およびその改良モデルを使用して示されています。これらのベンチマークに基づいて、セルフスペキュレーティブデコーディング手法は、従来の自己回帰手法よりもデータを1.73倍速くデコードできます。これは、推論プロセスを約2倍速くする重要な利点があり、遅延が問題となる状況で重要です。
まとめると、セルフスペキュレーティブデコーディングは、大規模言語モデルが情報を推論する方法を向上させる革新的な手法です。これは、起案ステージ中にスキップするレイヤーを選択してトークンをより速く生成し、検証ステージ中に出力品質を検証することによって実現されます。この手法は、ニューラルネットワークの追加のメモリ負荷やトレーニング要件を追加することなく、LLMの推論を高速化します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ChatGPTはナップサック問題を解決できますか?
- このAI研究は、ITオペレーション向けの新しい大規模言語モデルであるOwlを紹介します
- 「IBMの研究者たちは、モダリティやタスクに関係なくAIシステム向けの敵対的な入力を生成することが可能な新しい敵対的攻撃フレームワークを提案しています」
- 人工知能を使用した3Dモデルのカスタマイズを革新する:MITの研究者が、機能性に影響を与えずに美的な調整を行うためのユーザーフレンドリーなインターフェースを開発しました
- 「Googleの研究者は、シーンのダイナミクスに先行する画像空間をモデリングするための新しい人工知能アプローチを発表します」
- エイントホーフェンとノースウェスタン大学の研究者が、外部のトレーニングを必要としないオンチップ学習が可能な新しいニューロモーフィックバイオセンサーを開発しました
- 疾病の原因を特定するための遺伝子変異のカタログ