中国からの新しいAI研究が、RecycleGPTを紹介しましたRecycleGPTは、完全なモデルを複数のステップで実行せずに、事前生成されたモデルの状態をリサイクルすることで、高速なデコーディングスピード(1.4倍)を持つ生成言語モデルです

A new AI research from China introduced RecycleGPT, a language generation model that achieves high decoding speed (1.4x) by recycling the state of pre-generated models without running the complete model in multiple steps.

広範な応用領域で満足のいくテキストを作成する際、大規模言語モデル(LLM)は自然言語生成において画期的な役割を果たしています。100B以上のパラメータを持つモデルにスケーリングすることでパフォーマンスが大幅に向上しますが、モデルサイズが大きくなると、1つのデコーディングステップを完了するために必要な時間も増えます。大規模なモデルは膨大な計算を必要とし、メモリのフットプリントも大きく、どちらもLLMの遅い推論に大きく貢献しています。KVキャッシュ、トレーニングされたモデルのパラメータ、推論に必要な一時的な状態のメモリ要件は非常に大きいです。

LLMにおけるトークン生成は、システムのメモリアクセス速度の遅さのために遅くなります。各トークンを生成するために必要な時間は、モデルの総パラメータ数とほぼ相関します。

効果的な推論を行うためには、いくつかの手法が提案されています。これらの研究の基本的な焦点は、メモリ使用量を最小化し、メモリトラフィックの混雑を緩和することです。無錫国立スーパーコンピューティングセンターと清華大学による新しい研究では、トークン生成を最大化し、メモリ処理の予算を一定に保つための効率的なデコーディング技術について調査しています。彼らはRecycleGPTという新しい言語モデルアーキテクチャを導入し、以前に作成されたモデルの状態を再利用できるようにしています。

彼らの戦略は、以前に生成された状態に基づいて次のいくつかのトークンを予測する新しい再利用可能なモジュールを元の言語モデルに組み込むことです。再利用可能なモジュールは、トランスフォーマーベースの複数のレイヤーから構成されており、予測を行う際により良い表現が可能です。RecycleGPTは、推論中に様々な方法で従来のデコーディング技術と組み合わせることができます。この研究では、循環的に使用されており(つまり、2つのトークンを生成するためにはモデル全体を1回実行する必要があります)、他の方法についての調査は将来の研究に委ねられています。再利用可能なモジュールの目的は、デコーディングプロセスの高速化であり、そのモジュールは簡素なアーキテクチャにもかかわらず、文脈情報の効率的な表現と正確な予測を生成することができました。

研究チームはRecycleGPTをいくつかの業界基準と比較しました。その結果、モデルはパラメータ数がわずか15%増加するだけで、現行の最先端の言語モデルよりも1.4倍高速であり、同様のパフォーマンスを維持しています。研究者たちは近々、RecycleGPTの異なるサイズのモデルを発表する予定です。

適応性と拡張性の高さから、当社の再利用技術はさまざまな事前学習モデルと組み合わせて使用することができます。また、再利用可能なモジュールの作成技術やサイズは、必要な高速化パフォーマンスに到達するために変更することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

シリコンボレー:デザイナーがチップ支援のために生成AIを活用

今日公開された研究論文によれば、生成AIは、最も複雑なエンジニアリングプロジェクトの1つである半導体設計を支援できる方法...

データサイエンス

カーネル密度推定器のステップバイステップの説明

KDEは、基礎となるプロセスについての仮定をすることなく、任意のデータから視覚的に魅力的なPDFを作成することができます

機械学習

マルチアームバンディットを用いた動的価格設定:実践による学習

意思決定の問題の広大な世界において、一つのジレンマが特に強化学習の戦略によって所有されています:探索と活用スロットマ...

AIニュース

SalesForceはEinstein StudioとBring Your Own Model(BYOM)をリリースしました

サービスの一環として、SalesforceはEinstein Studioと呼ばれる新しいAIおよび生成AIモデルトレーニングツールを発表しました...

データサイエンス

「データ主導的なアプローチを取るべきか?時にはそうである」

「Covid-19が発生したとき、私はAirbnbでデータサイエンティストとして働いていましたそして、おそらく予想しているように、C...