Learn more about Search Results Habana Gaudi2

大規模言語モデルの高速推論:Habana Gaudi2アクセラレータ上のBLOOMZ

この記事では、🤗 Optimum Habanaを使用してHabana® Gaudi®2上のBLOOMのような数千億のパラメータを持つ大規模な言語モデルを簡単に展開する方法を紹介します。これは、この記事で示されたベンチマークに示されているように、市場で現在利用可能などのどのGPUよりも高速な推論を実行することを可能にします。 モデルがますます大きくなるにつれて、プロダクション環境に展開して推論を実行することはますます困難になっています。ハードウェアとソフトウェアの両方には、これらの課題に対処するための多くのイノベーションが見られますので、効率的にこれらの課題を克服する方法を見てみましょう! BLOOMZ BLOOMは、テキストのシーケンスを完了するためにトレーニングされた1760億のパラメータの自己回帰モデルです。46の異なる言語と13のプログラミング言語を扱うことができます。BigScienceイニシアチブの一環として設計され、トレーニングされたBLOOMは、世界中の多くの研究者とエンジニアが関わったオープンサイエンスプロジェクトです。最近では、同じアーキテクチャの別のモデルがリリースされました:BLOOMZは、BLOOMのいくつかのタスクで微調整されたバージョンであり、より良い汎化およびゼロショット[^1]の機能を持っています。 このような大規模なモデルは、トレーニングおよび推論の両方においてメモリと速度の新たな課題を提起します。16ビット精度でも、1インスタンスには352 GBのメモリが必要です!現時点では、そのような多くのメモリを持つデバイスはおそらく見つけることが難しいでしょうが、Habana Gaudi2のような最先端のハードウェアを使用すると、BLOOMとBLOOMZモデルで低い待ち時間で推論を実行することができます。 Habana Gaudi2 Gaudi2は、Habana Labsによって設計された第2世代のAIハードウェアアクセラレータです。1つのサーバーには8つのアクセラレータデバイス(Habana Processing UnitsまたはHPUsと呼ばれる)があり、それぞれ96GBのメモリを提供し、非常に大きなモデルを収める余地があります。ただし、モデルをホストするだけでは非常に興味深くありません。幸いにも、Gaudi2はその点で優れています:そのアーキテクチャは、アクセラレータが並列で一般行列乗算(GeMM)およびその他の操作を実行できるようにするため、深層学習ワークフローを高速化します。これらの特徴により、Gaudi2はLLMのトレーニングおよび推論の優れた候補となります。 HabanaのSDKであるSynapseAI™は、LLMトレーニングおよび推論を高速化するためにPyTorchとDeepSpeedをサポートしています。SynapseAIグラフコンパイラは、グラフに蓄積された操作の実行を最適化します(例:オペレータの統合、データレイアウトの管理、並列化、パイプライニングとメモリ管理、およびグラフレベルの最適化)。 さらに、HPUグラフとDeepSpeed-inferenceのサポートは、最近SynapseAIに導入され、以下のベンチマークに示すようにレイテンシに敏感なアプリケーションに適しています。 これらの機能は、🤗 Optimum Habanaライブラリに統合されており、Gaudiにモデルを展開することは非常に簡単です。こちらのクイックスタートページをご覧ください。 Gaudi2にアクセスしたい場合は、Intel Developer Cloudにアクセスし、このガイドに従ってください。…

ビジョン言語モデルの高速化:Habana Gaudi2上のBridgeTower

Optimum Habana v1.6 on Habana Gaudi2 では、最新のビジョン言語モデルである BridgeTower のファインチューニングにおいて、A100 と比較してほぼ3倍の高速化を実現しています。ハードウェアアクセラレーションによるデータの読み込みと高速な DDP 実装の2つの新機能がパフォーマンス向上に寄与しています。 これらの技術は、データの読み込みに制約がある他のワークロードにも適用できます。これは、さまざまなタイプのビジョンモデルに頻繁に起こるケースです。この投稿では、BridgeTower のファインチューニングを Habana Gaudi2 と Nvidia A100 80GB で比較するために使用したプロセスとベンチマークを紹介します。また、トランスフォーマーベースのモデルでこれらの機能を簡単に活用する方法も示します。 BridgeTower 最近のビジョン言語(VL)モデルは、さまざまなVLタスクで非常に重要であり、優位性を示しています。最も一般的なアプローチは、それぞれのモダリティから表現を抽出するためにユニモーダルエンコーダを利用することです。その後、これらの表現は融合されるか、クロスモーダルエンコーダに供給されます。VL表現学習のパフォーマンス制約と制限を効果的に扱うために、BridgeTower は複数のブリッジ層を導入し、ユニモーダルエンコーダのトップ層とクロスモーダルエンコーダの各層との間に接続を構築します。これにより、クロスモーダルエンコーダ内の異なる意味レベルで視覚とテキストの表現の効果的なボトムアップのクロスモーダルの整合性と融合が可能になります。…

高速なトレーニングと推論 Habana Gaudi®2 vs Nvidia A100 80GB

この記事では、Habana® Gaudi®2を使用してモデルのトレーニングと推論を高速化し、🤗 Optimum Habanaを使用してより大きなモデルをトレーニングする方法について説明します。さらに、BERTの事前トレーニング、Stable Diffusion推論、およびT5-3Bファインチューニングなど、第一世代のGaudi、Gaudi2、およびNvidia A100 80GBのパフォーマンスの違いを評価するためのいくつかのベンチマークを紹介します。ネタバレ注意 – Gaudi2はトレーニングと推論の両方でNvidia A100 80GBよりも約2倍高速です! Gaudi2は、Habana Labsが設計した第2世代のAIハードウェアアクセラレータです。単一のサーバには、各々96GBのメモリを持つ8つのアクセラレータデバイスが搭載されています(第一世代のGaudiでは32GB、A100 80GBでは80GB)。Habana SDKであるSynapseAIは、第一世代のGaudiとGaudi2の両方に共通しています。つまり、🤗 Optimus Habanaは、🤗 Transformersと🤗 DiffusersライブラリとSynapseAIの間の非常に使いやすいインターフェースを提供し、第一世代のGaudiと同じようにGaudi2でも動作します!ですので、既に第一世代のGaudi用の使用準備が整ったトレーニングや推論のワークフローがある場合は、何も変更することなくGaudi2で試してみることをお勧めします。 Gaudi2へのアクセス方法 IntelとHabanaがGaudi2を利用可能にするための簡単で費用効果の高い方法の1つは、Intel Developer Cloudで利用できるようになっています。そこでGaudi2を使用するためには、以下の手順に従う必要があります: Intel…

「FP8を用いたPyTorchトレーニング作業の高速化」

過去数年間、AIの分野では革命的な進展が見られており、特に最近のChatGPTなどのLLMベースのアプリケーションの人気と普及を最もよく表していますこれらは...

セーフコーダーを紹介します

今日は、エンタープライズ向けのコードアシスタントソリューションであるSafeCoderの発表をお知らせいたします。 SafeCoderの目標は、エンタープライズ向けに完全に準拠し、自己ホスト型のペアプログラマーを提供することで、ソフトウェア開発の生産性を向上させることです。マーケティングの言葉で言えば、「独自のオンプレミスGitHub Copilot」です。 さらに詳しく見ていく前に、以下のことを知っておく必要があります: SafeCoderはモデルではなく、完全なエンドツーエンドの商用ソリューションです SafeCoderはセキュリティとプライバシーを中心に設計されており、トレーニングや推論中にコードがVPCから出ることはありません SafeCoderは、顧客が独自のインフラストラクチャ上で自己ホストすることを前提としています SafeCoderは、顧客が独自のCode Large Language Modelを所有することを目指して設計されています SafeCoderの利点は何ですか? GitHub CopilotなどのLLMを活用したコードアシスタントソリューションは、生産性の向上に大きく貢献しています。エンタープライズでは、企業のコードベースに合わせてCode LLMを調整し、独自のCode LLMを作成することで、補完の信頼性と関連性を向上させ、さらなる生産性の向上を実現できます。例えば、Googleの内部LLMコードアシスタントは、内部のコードベースをトレーニングデータとして学習することで、25-34%の補完受け入れ率を報告しています。 しかし、クローズドソースのCode LLMを利用して内部のコードアシスタントを作成することは、コンプライアンスとセキュリティの問題につながります。トレーニング中には、クローズドソースのCode LLMを内部のコードベースに微調整するために、このコードベースを第三者に公開する必要があります。そして、推論中には、微調整されたCode LLMがトレーニングデータセットからコードを「漏洩」させる可能性があります。コンプライアンス要件を満たすためには、企業は自社のインフラストラクチャ内で微調整されたCode LLMを展開する必要がありますが、クローズドソースのLLMではそれは不可能です。 Hugging Faceでは、SafeCoderによって顧客が独自のCode LLMを構築できるようになります。最新のオープンソースモデルとライブラリを使用して、独自のコードベースに微調整されたCode…

このAIニュースレターはあなたが必要なすべてです#75

今週は、OpenAIのドラマが終わり、Sam AltmanとGreg BrockmanがOpenAIに復帰し、2人の新しい取締役が任命されました(既存の1人とともに…

「MLCommonsがAIモデルを実行するための新しいベンチマーク速度テストを公開しました」

月曜日、AIのベンチマークグループであるMLCommonsが、最高のハードウェアがAIモデルをどれくらい高速に実行できるかを判断するための新しいテストの結果を発表しましたReutersによると、このテストのトップパフォーマーはNvidiaのチップでしたテストは大規模な言語...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us