インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

「インテルの研究者たちが新しい人工知能のアプローチを提案、CPU上で効率的に展開するLLM(Large Language Models)」

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキスト生成、言語理解、テキスト要約などの能力でよく知られています。ただし、これらのモデルの広範な採用の一方で、モデルパラメータの膨大なサイズにより、推論には大きなメモリ容量と専用のハードウェアが必要であり、これまでこれらのモデルの展開は非常に困難でした。

推論に必要な計算能力を削減する方法の一つは、量子化手法を使用することです。つまり、人工ニューラルネットワークの重みと活性化関数の精度を低下させることです。INT8や重みのみの量子化など、推論コストを改善するための方法はいくつかありますが、これらの方法は一般的にCUDAに最適化されており、必ずしもCPU上で動作するわけではありません。

このIntelの研究論文の著者は、LLMを効率的にCPU上に展開する方法を提案しています。彼らのアプローチは、自動INT-4重みのみの量子化(低精度がモデルの重みにのみ適用され、活性化関数の精度は高く保たれます)のフローをサポートしています。また、CPU上の推論プロセスを加速する高度に最適化されたカーネルを持つ特定のLLMランタイムも設計しています。

量子化フローは、Intel Neural Compressorをベースに開発され、異なる量子化レシピ、粒度、グループサイズでのチューニングが可能で、精度目標を満たすINT4モデルを生成することができます。モデルはその後、LLMランタイムに渡され、量子化モデルのパフォーマンスを評価するために設計された特殊環境で評価されます。このランタイムは、CPU上のLLMの効率的な推論を提供するために設計されています。

実験では、研究者たちはパラメータサイズが異なる人気のあるLLMをいくつか選びました(7Bから20Bまで)。オープンソースのデータセットを使用してFP32モデルとINT4モデルのパフォーマンスを評価しました。選択したデータセット上での量子化モデルの精度は、FP32モデルとほぼ同等であることが観察されました。さらに、次のトークン生成のレイテンシの比較分析を行い、LLMランタイムがggmlベースのソリューションよりも最大1.6倍優れていることがわかりました。

結論として、この研究論文は、LLMに関連する最大の課題の1つであるCPU上での推論に対する解決策を提案しています。従来、これらのモデルはGPUのような専用ハードウェアが必要であり、多くの組織にとって利用できない状況でした。この論文では、INT4モデルの量子化と専用のLLMランタイムを提供することで、CPU上のLLMの効率的な推論を実現しています。人気のあるLLMの一連の評価では、この手法はggmlベースのソリューションに比べて優位性を示し、FP32モデルと同等の精度を提供します。ただし、今後の改善の余地もあり、研究者はAI生成コンテンツの成長する需要に対応するために、PC上での生成型AIを強化する計画です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ハイパーヒューマンに会ってください:潜在的な構造拡散を用いたハイパーリアルな人間生成のための新しいAIフレームワーク

ユーザーが指定した条件(テキストやポーズなど)に基づいて超リアルな人間のイメージを生成することは、画像アニメーション...

データサイエンス

GPTを使用した、OpenAIのパーソナルAIアプリのノーコードビルダー

データ分析、ビジュアルタスクなどのためにカスタムChatGPTを作成する方法を学びましょうOpenAIのノーコードGPTを使って、あ...

AIニュース

「グローバルリーダーが警告、A.I.は「壊滅的な」被害を引き起こす可能性がある」と言っています

「英国のサミットでは、中国とアメリカを含む28の政府が、人工知能のリスク評価に関する協力に同意する宣言に署名しました」

データサイエンス

「マスタリングモンテカルロ:より良い機械学習モデルをシミュレーションする方法」

モンテカルロ:統計的シミュレーションが機械学習を支える方法、πの推定からハイパーパラメータの最適化までPythonでこの多目...

AIニュース

サイバー犯罪者がWormGPTを使用してメールセキュリティを侵害

サイバー犯罪の絶え間ない変化は、新たな危険なツールの登場をもたらしました。OpenAIのChatGPTや悪名高いサイバー犯罪ツール...

機械学習

ローゼンブラットのパーセプトロンによる分類

「パーセプトロンの二値分類をゼロから実装する」