「テキスト生成推論によるコンピュータからの大規模言語モデルの提供」

Providing large-scale language models from computers using text generation inference

Falcon-7BのInstructバージョンの例

Nana Duaさんによる写真、Unsplashから

QLoRaやGPTQなどの量子化手法のおかげで、消費者向けハードウェア上で非常に大きな言語モデル(LLM)をローカルで実行することができるようになりました。

LLMの読み込みにかかる時間の長さを考慮すると、LLMをメモリに保持してクエリを実行し、結果を即座に得ることも望ましいでしょう。標準の推論パイプラインでLLMを使用する場合、モデルを毎回再読み込みする必要があります。モデルが非常に大きい場合、モデルが出力を生成するまで数分待つ必要があるかもしれません。

LLMをサーバー(ローカルまたはリモート)にホストするためのさまざまなフレームワークがあります。私のブログでは、NVIDIAが開発した非常に最適化されたフレームワークであるTriton Inference Serverを既に紹介しています。このフレームワークを使用すると、複数のLLMを提供し、GPU間の負荷を分散させることができます。ただし、1つのGPUしか持っておらず、モデルをコンピューター上にホストしたい場合、Triton Inferenceの使用は適していないかもしれません。

この記事では、Text Generation Inferenceという代替手法を紹介します。これは、消費者向けハードウェア上でLLMを実行し提供するための最小限の機能を実装したより直感的なフレームワークです。

この記事を読み終えると、コンピューター上にローカルで展開され、クエリを待機するチャットモデル/LLMを持つことができます。

テキスト生成インファレンス

テキスト生成インファレンス(TGI)は、LLMを展開し提供するためのRustとPythonで書かれたフレームワークです。Hugging Faceによって開発され、Apache 2.0ライセンスで配布されています。Hugging Faceは、製品で推論ウィジェットのパワーとして使用しています。

TGIはA100 GPU向けに最適化されていますが、RTX GPUなどの消費者向けハードウェアでも、量子化とページドアテンションのサポートにより、TGIは非常に適していると私は見つけました。ただし、RTX GPUをサポートするためには特定のインストールが必要です。これについては、この記事で後ほど詳しく説明します。

最近、Hugging FaceがいくつかのLLMアーキテクチャを最適化して、TGIでより高速に実行できるようにしていることも分かりました。

例えば、Falconモデルは、標準の推論パイプラインで実行すると比較的遅いですが、TGIを使用するとはるかに高速です…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

NVIDIAの最高科学者、ビル・ダリー氏がHot Chipsで基調講演を行う

ビル・ダリー(NVIDIAの研究部門の責任者であり、世界有数のコンピュータ科学者の一人)は、Hot Chipsという年次のプロセッサ...

機械学習

このAIニュースレターは、あなたが必要とするすべてです#61

「最近の数ヶ月間、私たちは大規模な言語モデル(LLM)の進歩と新しい技術の徐々の導入を続けてきましたが、まだGPT-4を直接...

AI研究

スタンフォードの研究者たちはPLATOを発表しました:知識グラフに拡張された正則化を用いた高次元、低サンプルの機械学習の過適合に取り組むための斬新なAIアプローチ

ナレッジグラフ(KG)は、ノードとエッジとして情報を格納するグラフベースのデータベースです。一方、マルチレイヤーパーセ...

人工知能

チャットGPTプラグインとの安全なインタラクションの変換ガイド

イントロダクション かつては静的なコンテンツの領域であったChatGPTは、ChatGPTプラグインの注入によって革命的な変革を遂げ...

機械学習

大規模言語モデル(LLM)と潜在ディリクレ配分(LDA)アルゴリズムを用いたドキュメントのトピック抽出

「私は、1000ページ以上の大きなドキュメントを処理することができるPDFファイルとのチャット用のウェブアプリケーションを開...

データサイエンス

DLノート:勾配降下法

人工ニューラルネットワーク(ANN)は、万能関数近似器です十分なデータが与えられ、適切なアーキテクチャがあり、十分な訓練...