印象的なパフォーマンス:TensorRT-LLMを使用したRTXで最大4倍高速化された大規模言語モデル(LLM) for Windows

インパクトのあるパフォーマンス:Windows用TensorRT-LLMで最大4倍高速化された大規模言語モデル(LLM)

Generative AIは、個人コンピューティングの歴史で最も重要なトレンドの一つであり、ゲーミング、創造性、ビデオ、生産性、開発などに進歩をもたらしています。

また、GeForce RTXとNVIDIA RTX GPUは、Tensor Coreと呼ばれる専用のAIプロセッサを搭載しており、1億台以上のWindows PCとワークステーションにネイティブで生成AIのパワーをもたらしています。

本日、TensorRT-LLM for Windowsにより、PC上の生成AIが最大4倍速くなりました。TensorRT-LLMは、AI large language models(Llama 2やCode Llamaなど)の推論性能を高速化するオープンソースライブラリであり、先月のデータセンター版TensorRT-LLMの発表に続きます。

NVIDIAは、TensorRT-LLMでカスタムモデルを最適化するスクリプト、TensorRTで最適化されたオープンソースモデル、およびLLMの速度と品質を示す開発者リファレンスプロジェクトなど、開発者がLLMを加速するためのツールもリリースしています。

TensorRTの高速化は、Automatic1111配布の人気のあるWeb UI内のStable Diffusionでも利用できます。これにより、従来の実装よりも生成AIの拡散モデルが最大2倍速くなります。

さらに、RTX Video Super Resolution(VSR)バージョン1.5は、今日のGame Ready Driverリリースの一環として利用可能です。また、来月初旬にリリースされる次期NVIDIA Studio Driverでも利用可能となります。

TensorRTでLLMをスーパーチャージ

LLMは生産性を向上させるために活用されており、チャットでの対話、文書やウェブコンテンツの要約、メールやブログの作成など、さまざまなコンテンツの自動分析と生成を行うAIやその他のソフトウェアの新しいパイプラインの中心に位置しています。

TensorRT-LLMは、LLMの推論を高速化するためのライブラリであり、開発者やエンドユーザーにLLMがRTX対応のWindows PC上で最大4倍速く動作する利点をもたらします。

また、高いバッチサイズでは、この高速化により、より洗練されたLLMの使用において体験が大幅に向上します。例えば、複数のユニークな自動補完結果を一度に出力するライティングやコーディングのアシスタントなどです。結果として、パフォーマンスが向上し、ユーザーは最高の選択肢を選ぶことができます。

TensorRT-LLMの高速化は、LLMの機能をベクトルライブラリやベクトルデータベースなどの他の技術と統合する場合にも有益です。これにより、特定のデータセット(ユーザーのメールやウェブサイトの記事など)に基づいた応答を中心としたRAG(retrieval-augmented generation)を実現できます。

具体例として、LLLaMa 2ベースモデルに「NVIDIA ACEはどのように感情的な応答を生成するのか?」という質問がなされた場合、役に立たない応答が返されます。

より良い応答、より高速。

一方、最近のGeForceニュース記事をベクトルライブラリに読み込んで同じLlama 2モデルに接続したRAGを使用すると、TensorRT-LLMの高速化により正しい回答が返され、さらに迅速になります。この速度と能力の組み合わせにより、ユーザーはよりスマートな解決策を得ることができます。

TensorRT-LLMは、近日中にNVIDIA Developerウェブサイトからダウンロードできるようになります。TensorRTで最適化されたオープンソースモデルと、サンプルプロジェクトとしてのGeForceニュースを使用したRAGデモは、ngc.nvidia.comおよびGitHub.com/NVIDIAで利用可能です。

自動アクセラレーション

ステーブル拡散などの拡散モデルは、驚くべき斬新な芸術作品を想像し作成するために使用されます。イメージ生成はパーフェクトな出力を達成するために数百のサイクルを要する反復的なプロセスです。しかし、性能の低いコンピュータで実行する場合、この反復プロセスによって数時間もの待ち時間が加算されることがあります。

TensorRTは、レイヤーフュージョン、精度校正、カーネル自動チューニングなどの能力を通じて、AIモデルを高速化するように設計されており、推論の効率と速度を大幅に向上させます。これにより、リアルタイムアプリケーションやリソース集約型のタスクに不可欠な存在となります。

そして今、TensorRTはStable Diffusionの速度を2倍に向上させます

Automatic1111の最も人気のあるディストリビューションであるWebUIと互換性のあるStable Diffusionは、TensorRTの高速化によりユーザーが迅速に反復し、コンピュータでの待ち時間を短縮し、早く最終画像を提供するのに役立ちます。GeForce RTX 4090上では、Apple M2 Ultra搭載のMacでのトップ実装に比べて7倍の速さで実行されます。この拡張機能は今日からダウンロード可能です

Stable DiffusionパイプラインのTensorRTデモは、拡散モデルを準備し、TensorRTを使用してそれらを高速化する方法についての参照実装を開発者に提供します。これは、高速な推論をアプリケーションにもたらすために拡散パイプラインをターボチャージしたいと考えている開発者にとってのスタート地点です。

超スーパービデオ

AIは日々のPC体験をすべてのユーザーに向上させています。YouTube、Twitch、Prime Video、Disney+など、ほぼすべてのソースからのストリーミングビデオは、PC上で最も人気のあるアクティビティの1つです。AIとRTXのおかげで、その画質がさらにアップデートされています。

RTX VSRは、ビデオ圧縮によるアーティファクトを低減または除去することで、ストリーミングビデオの品質を向上させるAIピクセル処理の飛躍的な進歩です。また、エッジとディテールを鮮明化します。

現在利用可能なRTX VSRバージョン1.5は、更新されたモデルで視覚的品質をさらに向上させ、NVIDIA TuringアーキテクチャベースのRTX GPU(プロフェッショナルRTXおよびGeForce RTX 20シリーズGPU)に対応しています。

VSR AIモデルの再トレーニングにより、微細なディテールと圧縮アーティファクトの違いを正確に識別できるようになりました。その結果、AIによって強化された画像は、アップスケーリングプロセス中にディテールをより正確に保持します。より細かいディテールが見えやすくなり、総体的な画像がより鮮明になります。

RTXビデオスーパーリゾリューションv1.5は、ディテールと鮮明さを向上させます。

バージョン1.5では、ディスプレイのネイティブ解像度で再生されるビデオのアーティファクトを除去する機能が追加されました。元のリリースでは、アップスケーリングされている場合にのみビデオを強化しましたが、例えば1080pのビデオを1080pの解像度ディスプレイにストリーミングする場合、重いアーティファクトが減少するため、よりスムーズに見えるでしょう。

RTX VSRは、ネイティブ解像度で再生されるビデオのアーティファクトを除去します。

RTX VSR 1.5は、最新のGame Ready Driverを使用して今日からすべてのRTXユーザーに利用可能です。また、来月初めに予定されているNVIDIA Studio Driverでも利用可能になります。

RTX VSRは、400以上のAI対応アプリとゲームに貢献した、NVIDIAのソフトウェア、ツール、ライブラリ、SDKの1つです。

AI時代が到来しています。そして、RTXはその進化のあらゆる段階でスーパーチャージされています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ソフトウェアエンジニアリングの未来 生成AIによる変革

この記事では、Generative AI(およびLarge Language Models)の出現と、それがソフトウェアエンジニアリングの将来をどのよ...

データサイエンス

「2023年の公共セクターにおけるデータストリーミングの状況」

この投稿では、アメリカの国防総省、NASA、ドイツ鉄道などのケーススタディを交えながら、公共セクターや政府におけるデータ...

データサイエンス

オープンAIによるこの動きは、AGIへの道を開くだろう

人工知能(AI)の能力向上を目指した画期的な取り組みの一環として、OpenAIはデータパートナーシップイニシアチブを発表しま...

機械学習

大規模な言語モデルにおけるコンテキストに基づく学習アプローチ

言語モデリング(LM)は、単語のシーケンスの生成的な尤度をモデル化することを目指し、将来の(または欠損している)トーク...

AIニュース

OpenAIを使用してカスタムチャットボットを開発する

はじめに チャットボットは自動化されたサポートと個別の体験を提供し、ビジネスが顧客とつながる方法を革新しました。人工知...

コンピュータサイエンス

認知的燃焼の引火:認知アーキテクチャとLLMの融合による次世代コンピュータの構築

「技術はシステムに統合されることで飛躍的な進展を遂げますこの記事では、言語モデルを統合したアーキテクチャの取り組みに...