インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

「インテルの研究者たちが新しい人工知能のアプローチを提案、CPU上で効率的に展開するLLM(Large Language Models)」

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキスト生成、言語理解、テキスト要約などの能力でよく知られています。ただし、これらのモデルの広範な採用の一方で、モデルパラメータの膨大なサイズにより、推論には大きなメモリ容量と専用のハードウェアが必要であり、これまでこれらのモデルの展開は非常に困難でした。

推論に必要な計算能力を削減する方法の一つは、量子化手法を使用することです。つまり、人工ニューラルネットワークの重みと活性化関数の精度を低下させることです。INT8や重みのみの量子化など、推論コストを改善するための方法はいくつかありますが、これらの方法は一般的にCUDAに最適化されており、必ずしもCPU上で動作するわけではありません。

このIntelの研究論文の著者は、LLMを効率的にCPU上に展開する方法を提案しています。彼らのアプローチは、自動INT-4重みのみの量子化(低精度がモデルの重みにのみ適用され、活性化関数の精度は高く保たれます)のフローをサポートしています。また、CPU上の推論プロセスを加速する高度に最適化されたカーネルを持つ特定のLLMランタイムも設計しています。

量子化フローは、Intel Neural Compressorをベースに開発され、異なる量子化レシピ、粒度、グループサイズでのチューニングが可能で、精度目標を満たすINT4モデルを生成することができます。モデルはその後、LLMランタイムに渡され、量子化モデルのパフォーマンスを評価するために設計された特殊環境で評価されます。このランタイムは、CPU上のLLMの効率的な推論を提供するために設計されています。

実験では、研究者たちはパラメータサイズが異なる人気のあるLLMをいくつか選びました(7Bから20Bまで)。オープンソースのデータセットを使用してFP32モデルとINT4モデルのパフォーマンスを評価しました。選択したデータセット上での量子化モデルの精度は、FP32モデルとほぼ同等であることが観察されました。さらに、次のトークン生成のレイテンシの比較分析を行い、LLMランタイムがggmlベースのソリューションよりも最大1.6倍優れていることがわかりました。

結論として、この研究論文は、LLMに関連する最大の課題の1つであるCPU上での推論に対する解決策を提案しています。従来、これらのモデルはGPUのような専用ハードウェアが必要であり、多くの組織にとって利用できない状況でした。この論文では、INT4モデルの量子化と専用のLLMランタイムを提供することで、CPU上のLLMの効率的な推論を実現しています。人気のあるLLMの一連の評価では、この手法はggmlベースのソリューションに比べて優位性を示し、FP32モデルと同等の精度を提供します。ただし、今後の改善の余地もあり、研究者はAI生成コンテンツの成長する需要に対応するために、PC上での生成型AIを強化する計画です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ChatGPTから独自のプライベートなフランス語チューターを作成する方法

議論された外国語チューターのコードは、私のGitHubページの同梱リポジトリで見つけることができます非商業利用に限り、自由...

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...

AIニュース

オラクルがMySQL 8.2を発表し、強化された読み書き分割機能を搭載しました

最近、Oracleは人気のあるリレーショナルデータベース管理システムの進化において重要なマイルストーンとなる、MySQL 8.2の一...

AIニュース

ツール・ド・フランスは、ChatGPTとデジタルツインテクノロジーを導入しました

日本を拠点とする情報技術およびサービス企業NTTは、今年のツール・ド・フランスにChatGPTと「世界最大のコネクテッドスタジ...

AIニュース

「4つのテック巨人 - OpenAI、Google、Microsoft、Anthropicが安全なAIのために結集」

人工知能の世界で最も有名な4社が、先進的なAIモデルの責任ある開発を確保するための強力な業界団体の設立を目指し、連携する...