Search Results プロトタイプ

13分でハミルトンを使用したメンテナブルでモジュラーなLLMアプリケーションスタックの構築

この投稿では、オープンソースのフレームワークであるHamiltonが、大規模な言語モデル（LLM）アプリケーションスタックのために、モジュール化されて保守性の高いコードの作成をサポートする方法を共有しますHamiltonは素晴らしいです...

成功に導くデータチームの意思決定

現実は複雑です：人々や組織は予期しない方法で行動し、外部の出来事は私たちの最もうまくいくワークフローに次々と障害を投げ込むことがありますデータチームにとっては、誘惑に駆られることがあります...

「AIによるデータアナリストのテストに挑戦する」

私の意見では、アナリティクスは、即興の要求の膨大な量のために運営が最も困難な分野の一つです通常、SQLクエリを書いたり、あるいは何らかの分析を行ったりすることが含まれます

北京大学の研究者は、FastServeを紹介しました：大規模な言語モデルLLMsのための分散推論サービスシステム

大規模言語モデル（LLM）の改善により、さまざまな分野での機会が生まれ、新しい波の対話型AIアプリケーションがインスピレーションを与えています。最も注目すべきものの1つはChatGPTで、ソフトウェアエンジニアリングから言語翻訳までの問題を解決するために、人々がAIエージェントと非公式にコミュニケーションを取ることを可能にします。 ChatGPTは、その驚異的な能力のために、史上最も急成長しているプログラムの1つです。MicrosoftのNew Bing、GoogleのBard、MetaのLLaMa、StanfordのAlpaca、DatabricksのDolly、UC BerkeleyのVicunaなど、多くの企業がLLMやChatGPTのような製品をリリースするトレンドに追従しています。 LLMの推論は、ResNetなどの他の深層ニューラルネットワーク（DNN）モデルの推論とは異なる特徴を持っています。LLM上に構築された対話型AIアプリケーションは、機能するために推論を提供する必要があります。これらのアプリの対話的なデザインは、LLM推論のジョブ完了時間（JCT）を迅速に行う必要があり、ユーザーエクスペリエンスを魅力的にするためです。たとえば、データをChatGPTに送信した場合、消費者は即座の応答を期待しています。ただし、LLMの数と複雑さのため、推論サービングインフラは大きな負荷を受けています。企業は、LLM推論操作を処理するために、GPUやTPUなどのアクセラレータを備えた高価なクラスタを設置しています。 DNNの推論ジョブは通常、確定的で非常に予測可能です。つまり、モデルとハードウェアが推論ジョブの実行時間を大部分に決定します。たとえば、同じResNetモデルを特定のGPU上で使用しても、さまざまな入力写真の実行時間はわずかに異なります。一方、LLMの推論位置はユニークな自己回帰パターンを持っています。LLMの推論作業は複数のラウンドを経ます。各イテレーションは1つの出力トークンを生成し、それが次のイテレーションでの次のトークンに追加されます。初めには不明な出力の長さは、実行時間と入力の長さの両方に影響を与えます。ResNetなどの決定論的モデル推論タスクの大部分は、ClockworkやShepherdのような既存の推論サービングシステムによって対応されています。これらのシステムは、正確な実行時間のプロファイリングに基づいてスケジューリングの決定を行いますが、実行時間が可変のLLM推論には効果的ではありません。LLM推論の最も先進的な方法はOrcaです。Orcaはイテレーションレベルのスケジューリングを提案し、各イテレーション後に現在の処理バッチに新しいジョブを追加するか、完了したジョブを削除することができます。ただし、Orcaは先入れ先出し（FCFS）を使用して推論ジョブを処理します。スケジュールされたタスクは完了するまで連続して実行されます。推論ジョブの制約されたGPUメモリ容量と低いJCT要件のため、処理バッチを任意の数の入力関数で拡張することはできません。完了まで実行されるまでのブロックの問題はよく知られています。 LLMはサイズが大きく、絶対的な意味で実行に時間がかかるため、LLM推論操作ではこの問題が特に深刻です。特に出力の長さが長い場合、大規模なLLM推論ジョブは完了に時間がかかり、後続の短いジョブを妨げます。北京大学の研究者たちは、FastServeと呼ばれるLLM向けの分散推論サービングソリューションを開発しました。FastServeは、LLM推論のイテレーションレベルのスケジューリングと自己回帰パターンを利用して、各出力トークンのレベルで事前処理を可能にします。FastServeは、キュー内の別のジョブによって予定されたタスクを続行するか、中断するかを選択できます。これにより、FastServeはJCTと先行ブロッキングを削減し、先制的なスケジューリングを介しています。 FastServeの基盤となるのは、ユニークなスキップジョインのマルチレベルフィードバックキュー（MLFQ）スケジューラです。MLFQは、情報がない環境で平均JCTを最小化するためのよく知られた手法です。各作業は最も高い優先度キューで開始され、一定の時間内に完了しない場合は次の優先度キューに降格されます。LLM推論は、セミ情報が無関係であり、出力の長さが事前にはわからないということを意味します。これがLLM推論と従来の状況の主な違いです。入力の長さは、初期の出力トークンを作成するための実行時間を決定し、LLM推論の自己回帰パターンのため、その実行時間は後続のトークンよりもはるかに長くかかる場合があります。入力が長く、出力が短い場合、初期の出力トークンの実行時間が大部分を占めます。彼らは、この特性を伝統的なMLFQにスキップジョインを追加するために使用します。到着タスクは、最初の出力トークンの実行時間をラインの降格閾値と比較して、適切なキューに参加します。常に最も高い優先度キューに入るのではなく、参加したキューよりも優先度の高いキューはバイパスされ、降格が最小限に抑えられます。MLFQによる先制的なスケジューリングは、中断されたが完了していないジョブを一時的な状態で保持するため、追加のメモリオーバーヘッドを加えます。LLMは、各Transformerレイヤーごとにキー値キャッシュを保持し、中間状態を保存します。バッチサイズが超過しない限り、FCFSキャッシュにはスケジュールされたジョブの中間状態を保持する必要があります。ただし、MLFQで開始された追加のジョブは、優先度の低いキューに降格されます。MLFQの中断されたが完了していないすべてのジョブは、キャッシュによって保持される中間状態を持つ必要があります。LLMのサイズとGPUの制限されたメモリスペースを考慮すると、キャッシュがオーバーフローする可能性があります。キャッシュがいっぱいの場合、スケジューラは新しいジョブの開始を単純に遅延させることができますが、これにより再び先行ブロッキングが発生します。代わりに、彼らは生産的なGPUメモリ管理システムを開発し、スケジュールされたときに低優先度のキュー内のプロセスの状態を前もってアップロードし、キャッシュがほぼいっぱいになったときに状態をオフロードします。効率を高めるために、パイプライン処理と非同期メモリ操作を使用しています。FastServeは、テンソルとパイプライン並列処理などの並列化技術を使用して、1つのGPUに収まらない巨大なモデルのために多数のGPUを使用した分散推論サービスを提供します。パイプラインのブロックを減らすために、スケジューラは同時に複数のジョブのバッチを実行します。キーと値のキャッシュは、キーと値のキャッシュマネージャによって組織化され、GPUとホストメモリの間のメモリスワッピングの管理も行います。彼らは、NVIDIA FasterTransformerをベースにしたFastServeシステムのプロトタイプを実際に実装しました。結果は、FastServeが最先端のOrcaソリューションと比較して、平均およびテールのジョブ完了時間をそれぞれ最大5.1と6.4向上させることを示しています。

「OpenAIと共にAI製品を開発する CoRiseからの無料コース」

「CoRiseとOpenAIが共同で開発したAI製品の構築に関する無料コースをチェックしてください」

Partners

デザインスピードがリードを取る：Trek BicycleはNVIDIA GPUを使用して開発された自転車でツール・ド・フランスに参戦する

NVIDIA RTXは、デザインに新たなサイクルをもたらしています。Trek Bicycleは、GPUを使用してデザインコンセプトを具現化しています。世界最大の自転車メーカーの一つであるウィスコンシン州に本社を置く同社は、最高品質の職人技を持つ自転車を作り出すことを目指しています。新たなパートナーである国際小売チェーンのLidlと共同で、Trek Bicycleはサイクリングチームも所有しており、現在はLidl-Trekと呼ばれています。このチームは、Trek BicycleのフラッグシップラインナップであるEmonda、Madone、Speed Conceptを使用して、年次のツール・ド・フランスステージレースに出場しています。チームの多くのアクセサリーや装備、例えばホイールやロードレースヘルメットも、Trekで設計されました。自転車のデザインには複雑な物理学が関与しており、主な課題は空力効率と快適性、走行品質のバランスを取ることです。この課題に対処するために、TrekのチームはNVIDIA A100 Tensor Core GPUを使用して高精度の計算流体力学（CFD）シミュレーションを実行し、快適に乗れて滑らかに操作できる自転車の空力性能において新たな基準を確立しています。デザイナーやエンジニアは、Dell PrecisionワークステーションでNVIDIA RTXテクノロジーを使用してワークフローをさらに向上させています。これには、NVIDIA RTX A5500 GPUを搭載したDell Precision 7920や、RTX A6000 GPUを搭載したデュアルのDell Precision 7920も含まれています。…

ゼロからdbtモデルを設計する方法

「dbtの究極ガイドを調査していた時、実際にモデルをゼロから構築するための資料がほとんどないことに驚きました具体的な手順はツールの中ですべてカバーされていますが、...」

効果的にMLソリューションを比較する方法

「機械学習ソリューションを評価および比較する際には、おそらく最初に評価指標として予測力を使用することになるでしょう異なるモデルを1つの指標で比較するのは簡単であり、これが...」

「ODSC Europe 2023 キーノート：マイクロソフトのヘンク・ブーレマンによるAzureを用いたPyTorchモデルの展開」

「ODSC Europeのバーチャルプログラムの一環として、私たちはMicrosoftのシニアクラウドアドボケートであるヘンク・ブーレマン氏に基調講演をお願いする機会を得ましたヘンク氏の専門分野はAI、Azure、アプリケーション開発です彼はまた、経験豊富なスピーカーでもあり、ユーザーグループでの講演も行っています...」

Europe 2023

Hugging Face Hubへようこそ、spaCyさん

spaCyは、産業界で広く使用される高度な自然言語処理のための人気のあるライブラリです。spaCyを使用すると、固有表現認識、テキスト分類、品詞タグ付けなどのタスクのためのパイプラインの使用とトレーニングが容易になり、大量のテキストを処理して分析する強力なアプリケーションを構築できます。 Hugging Faceを使用すると、spaCyパイプラインをコミュニティと簡単に共有できます！単一のコマンドで、モデルカードが含まれ、必要なメタデータが自動生成されたパイプラインパッケージをアップロードできます。推論APIは現在、固有表現認識（NER）をサポートしており、パイプラインをブラウザで対話的に試すことができます。また、パッケージ用のライブURLも提供されるため、プロトタイプから本番環境までのスムーズなパスでどこからでもpip installできます！モデルの検索 spaCy orgには、60以上のカノニカルモデルがあります。これらのモデルは最新の3.1リリースからのものであり、最新のリリースモデルをすぐに試すことができます！さらに、コミュニティからのすべてのspaCyモデルはここで見つけることができます：https://huggingface.co/models?filter=spacy。ウィジェットこの統合にはNERウィジェットのサポートも含まれており、NERコンポーネントを持つすべてのモデルは、デフォルトでこれを備えています！近日中に、テキスト分類や品詞タグ付けのサポートも追加されます。既存のモデルの使用 Hubからのすべてのモデルは、pip installを使用して直接インストールすることができます。 pip install https://huggingface.co/spacy/en_core_web_sm/resolve/main/en_core_web_sm-any-py3-none-any.whl # spacy.load()を使用する。 import spacy nlp = spacy.load("en_core_web_sm") # モジュールとしてインポートする。…

Learn more about Search Results プロトタイプ - Page 17