UCIと浙江大学の研究者は、ドラフティングと検証のステージを使用した自己推測デコーディングによるロスレスな大規模言語モデルの高速化を紹介しました

UCIと浙江大学の研究者は、自己推測デコーディングを使用したロスレスな言語モデルの高速化を紹介しました

トランスフォーマーに基づく大規模言語モデル(LLM)は、GPT、PaLM、LLaMAなど、さまざまな実世界のアプリケーションで広く使用されています。これらのモデルは、テキスト生成、翻訳、自然言語解釈など、さまざまなタスクに適用されています。ただし、特に低遅延が重要な場合において、これらのモデルの推論コストが大きな懸念事項となっています。これらのモデルが使用する自己回帰デコーディング方式が、高い推論コストの主な原因です。自己回帰デコーディングでは、各出力トークンが順次生成されるため、多くのトランスフォーマー呼び出しがあります。各トランスフォーマー呼び出しのメモリ帯域幅は制限されており、効率の悪い計算と長い実行時間を引き起こします。

大規模言語モデル(LLM)の推論プロセスを高速化するために、最近の研究では、補助モデルを必要としないユニークな手法であるセルフスペキュレーティブデコーディングを導入しています。この手法は、出力品質を保持しながら推論をより迅速に生成する問題に取り組んでいます。これは、起案と検証の2段階の手順を組み合わせることによって特徴付けられています。

  1. 起案ステージ – 起案ステージの目的は、従来の自己回帰方式を使用して生成されたトークンよりもわずかに品質が劣るドラフトトークンをより速く生成することです。このために、この手法では起案中にいくつかの中間層をバイパスします。LLMのこれらの中間層は出力を洗練するが、推論中に多くの時間とリソースを消費します。
  1. 検証ステージ – この手法は、起案ステージでドラフトの出力トークンを生成し、オリジナルの変更されていないLLMを使用してこれらのトークンを単一の順方向パスで検証します。従来の自己回帰デコーディング手法を使用した場合、LLMは同じ最終結果を生成するため、この検証ステップによって保証されます。したがって、起案ステージがトークンをより速く生成したとしても、最終的な品質は保持されます。

セルフスペキュレーティブデコーディングは、ニューラルネットワークの追加のトレーニングを必要としないため、その主な利点の1つです。既存の推論の高速化手法では、補助モデルのトレーニングやLLMのアーキテクチャの大幅な変更が一般的であり、これらは課題がありリソースを消費する要素です。一方、セルフスペキュレーティブデコーディングは、「プラグアンドプレイ」のアプローチであり、追加のトレーニングやモデルの変更なしに既存のLLMに追加できます。

この研究は、セルフスペキュレーティブデコーディングの有効性を実証する経験的なサポートを提供しています。ベンチマークの結果は、LLaMA-2およびその改良モデルを使用して示されています。これらのベンチマークに基づいて、セルフスペキュレーティブデコーディング手法は、従来の自己回帰手法よりもデータを1.73倍速くデコードできます。これは、推論プロセスを約2倍速くする重要な利点があり、遅延が問題となる状況で重要です。

まとめると、セルフスペキュレーティブデコーディングは、大規模言語モデルが情報を推論する方法を向上させる革新的な手法です。これは、起案ステージ中にスキップするレイヤーを選択してトークンをより速く生成し、検証ステージ中に出力品質を検証することによって実現されます。この手法は、ニューラルネットワークの追加のメモリ負荷やトレーニング要件を追加することなく、LLMの推論を高速化します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「アフリカと中東で5人の生成型AIイノベーターに会おう」

起業家たちは、西アフリカの西海岸からアラビア砂漠の東端まで、生成的AIを育てています。 Gen AIは、コーヒ・ゲンフィとニー...

人工知能

2023年の最高のAI販売アシスタントツール

人工知能の営業アシスタントソリューションは、バーチャル営業アシスタントとしても知られ、様々な業務を自動化することで営...

AIニュース

「AmazonがAIによるレビューの要約を導入」

1995年、Amazonは顧客レビューのコンセプトを導入することで、電子商取引の風景を一変させました。これは、ショッパーが製品...

AIニュース

(sekai no toppu 10 no sōsei AI sutātappu)

はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャ...

機械学習

「ビジョン・ランゲージの交差点でのブレイクスルー:オールシーイングプロジェクトの発表」

AIチャットボットの急速な台頭を支えるLLMは、話題の的です。ユーザーに合わせた自然言語処理機能において驚異的な能力を示し...

機械学習

このAI論文は、実世界の網膜OCTスキャンを使用して、年齢に関連した黄斑変性の段階を分類するためのディープラーニングモデルを紹介しています

新しい研究論文では、網膜光干渉断層法(OCT)スキャンを使用した老年性黄斑変性(AMD)の段階に基づいたディープラーニング...