インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

「インテルの研究者たちが新しい人工知能のアプローチを提案、CPU上で効率的に展開するLLM(Large Language Models)」

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキスト生成、言語理解、テキスト要約などの能力でよく知られています。ただし、これらのモデルの広範な採用の一方で、モデルパラメータの膨大なサイズにより、推論には大きなメモリ容量と専用のハードウェアが必要であり、これまでこれらのモデルの展開は非常に困難でした。

推論に必要な計算能力を削減する方法の一つは、量子化手法を使用することです。つまり、人工ニューラルネットワークの重みと活性化関数の精度を低下させることです。INT8や重みのみの量子化など、推論コストを改善するための方法はいくつかありますが、これらの方法は一般的にCUDAに最適化されており、必ずしもCPU上で動作するわけではありません。

このIntelの研究論文の著者は、LLMを効率的にCPU上に展開する方法を提案しています。彼らのアプローチは、自動INT-4重みのみの量子化(低精度がモデルの重みにのみ適用され、活性化関数の精度は高く保たれます)のフローをサポートしています。また、CPU上の推論プロセスを加速する高度に最適化されたカーネルを持つ特定のLLMランタイムも設計しています。

量子化フローは、Intel Neural Compressorをベースに開発され、異なる量子化レシピ、粒度、グループサイズでのチューニングが可能で、精度目標を満たすINT4モデルを生成することができます。モデルはその後、LLMランタイムに渡され、量子化モデルのパフォーマンスを評価するために設計された特殊環境で評価されます。このランタイムは、CPU上のLLMの効率的な推論を提供するために設計されています。

実験では、研究者たちはパラメータサイズが異なる人気のあるLLMをいくつか選びました(7Bから20Bまで)。オープンソースのデータセットを使用してFP32モデルとINT4モデルのパフォーマンスを評価しました。選択したデータセット上での量子化モデルの精度は、FP32モデルとほぼ同等であることが観察されました。さらに、次のトークン生成のレイテンシの比較分析を行い、LLMランタイムがggmlベースのソリューションよりも最大1.6倍優れていることがわかりました。

結論として、この研究論文は、LLMに関連する最大の課題の1つであるCPU上での推論に対する解決策を提案しています。従来、これらのモデルはGPUのような専用ハードウェアが必要であり、多くの組織にとって利用できない状況でした。この論文では、INT4モデルの量子化と専用のLLMランタイムを提供することで、CPU上のLLMの効率的な推論を実現しています。人気のあるLLMの一連の評価では、この手法はggmlベースのソリューションに比べて優位性を示し、FP32モデルと同等の精度を提供します。ただし、今後の改善の余地もあり、研究者はAI生成コンテンツの成長する需要に対応するために、PC上での生成型AIを強化する計画です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIバイアス&文化的なステレオタイプ:影響、制約、そして緩和」

「AIのバイアスは私たちの社会に害をもたらしますAIアルゴリズムに根付いたバイアスについて学び、それらを軽減するさまざま...

データサイエンス

機械学習のための高品質データセットの作成初心者ガイド

このチュートリアルでは、高品質なデータを取得し、機械学習の分類結果を改善する方法を紹介します

AIニュース

「AIプロジェクトが、アルゼンチンの軍事独裁政権下で行方不明になった子供たちの成人した顔を想像します」

アルゼンチンの広告宣伝家、サンティアゴ・バロス氏は、アプリを使用して、アルゼンチンの軍事独裁時代に両親から引き離され...

AIニュース

「ショートGPTと出会おう:コンテンツ作成の自動化とビデオ制作プロセスの効率化のためのパワフルなAIフレームワーク」

デジタルコンテンツ制作のスピードが速い世界では、効率性と創造性が重要です。ShortGPTは、コンテンツ制作を自動化し、ビデ...

データサイエンス

人工知能についての国家安全保障リーダーの教育

MITの工学部、シュワルツマン・カレッジ・オブ・コンピューティング、およびスローンエグゼクティブエデュケーションの専門家...

データサイエンス

「データ管理におけるデータレイクの実装」

データレイクは、多様なデータのスケーラブルかつ柔軟なストレージを提供し、現代の管理には必要不可欠ですが、堅牢なガバナ...