Search Results 16

スピードは必要なすべてです：GPU意識の最適化による大規模拡散モデルのオンデバイス加速化

コアシステム&エクスペリエンスのソフトウェアエンジニアであるJuhyun LeeとRaman Sarokinによる投稿画像生成のための大規模な拡散モデルの普及により、モデルサイズと推論ワークロードは大幅に増加しました。モバイル環境でのオンデバイスML推論には、リソース制約のために緻密なパフォーマンス最適化とトレードオフの考慮が必要です。コスト効率とユーザープライバシーの必要性により、大規模拡散モデル（LDM）のオンデバイスでの実行は、これらのモデルの大幅なメモリ要件と計算要件のために更に大きな課題を提供します。本稿では、私たちの「速さこそがすべて：GPUによる大規模拡散モデルのオンデバイスアクセラレーションによる最適化」に焦点を当て、モバイルGPU上の基本的なLDMモデルの最適化された実行について述べます。このブログ記事では、Stable Diffusionなどの大規模拡散モデルを高速で実行するために使用した主なテクニックをまとめ、512×512ピクセルのフル解像度で20回イテレーションを行い、蒸留なしでオリジナルモデルの高性能推論速度で12秒未満で実行できるようにしました。前回のブログ記事で述べたように、GPUアクセラレーションされたML推論は、メモリのパフォーマンスに制限されることがよくあります。そして、LDMの実行も例外ではありません。したがって、私たちの最適化の中心テーマは、演算論理ユニットの効率性を優先するものよりも、メモリの入出力（I/O）の効率性であり、ML推論の全体的なレイテンシを減らすことです。 LDMのサンプル出力。プロンプトテキスト：「周りの花と可愛い子犬の写真リアルな高解像度画像」。メモリ効率のための強化されたアテンションモジュール ML推論エンジンは通常、最適化されたさまざまなML操作を提供します。しかし、各ニューラルネット演算子を実行するためのオーバーヘッドがあるため、最適なパフォーマンスを達成することは依然として難しい場合があります。このオーバーヘッドを緩和するため、ML推論エンジンは、複数の演算子を1つの演算子に統合する広範な演算子フュージョンルールを組み込んで、テンソル要素を横断するイテレーション数を減らすことで、イテレーションあたりの計算を最大限に増やします。たとえば、TensorFlow Liteは、畳み込みのような計算負荷の高い演算と、後続の活性化関数であるReLUのような演算を組み合わせる演算子フュージョンを利用しています。最適化の明らかな機会は、LDMのデノイザーモデルで採用された頻繁に使用されるアテンションブロックです。アテンションブロックにより、重要な領域に重みを割り当てることで、モデルは入力の特定の部分に焦点を当てることができます。アテンションモジュールを最適化する方法は複数ありますが、以下に説明する2つの最適化のうち、どちらが優れたパフォーマンスを発揮するかに応じて、選択的に1つを使用します。第1の最適化である部分的にフュージョンされたsoftmaxは、アテンションモジュール内のsoftmaxと行列乗算の間の詳細なメモリ書き込みと読み取りを省略します。アテンションブロックが単純な行列乗算であると仮定すると、Y = softmax（X）* Wの形式で表されます。ここで、XとWはそれぞれa×bおよびb×cの2D行列です（下図参照）。数値の安定性のために、T= softmax（X）は、通常、3つのパスで計算されます。リストの最大値を決定し、行ごとに行列Xを計算します各リスト項目の指数関数と最大値（パス1から）の差を合計しますアイテムから最大値を引いた指数関数を、パス2からの合計で除算しますこれらのパスを単純に実行すると、中間テンソル T に全体のsoftmax関数の出力が格納されるため、巨大なメモリ書き込みが必要になります。パス1と2の結果のみを保存するテクニックを使用することで、m と…

新時代の幕開け：「エイジオブエンパイア」シリーズがGeForce NOWに参加、6月に20タイトルがリリース予定

暑い太陽と長い日々の季節がやってきました。そんな時は、6月にGeForce NOWに参加する20のゲームで、この夏は家の中にいましょう。また、プールで、おばあちゃんの家や車の中など、どこでもストリーミングできます。どちらの方法でも、GeForce NOWが対応します。次のXboxゲームとして、Age of EmpiresシリーズのタイトルがGeForce NOWに登場します。GeForce NOWライブラリの1,600以上のゲームの中から、この夏たくさん楽しむことができます。帝国を拡大する石器時代からクラウドまで。 NVIDIAは先月、Microsoftとの協力関係の一環として、最初のXboxゲームをクラウドにリリースしました。今度は、Ensemble StudiosのAge of Empiresシリーズのアクションゲームをクラウドに取り込む最初の人になりました。 1997年の最初のリリース以来、Age of Empiresは、最も長く続くリアルタイムストラテジーシリーズの1つとして確立されています。この高評価のRTSシリーズは、プレイヤーが拡大して繁栄する文明を目指して、帝国全体を制御することを目的としています。フランチャイズの最新のSteamバージョン4つが、GeForce NOWライブラリに後日追加されます。それぞれのタイトルは、Age of Empires: Definitive Edition、Age of…

アクセラレータの加速化：科学者がGPUとAIでCERNのHPCを高速化

注：これは、高性能コンピューティングを利用した科学を前進させる研究者のシリーズの一環です。 Maria Gironeは、高速コンピューティングとAIを用いて、世界最大の科学コンピュータネットワークを拡大しています。 2002年以来、粒子物理学の博士号を持つ彼女は、40以上の国の170以上のサイトにまたがるシステムのグリッドで、CERNの大型ハドロン衝突型加速器（LHC）をサポートしています。HL-LHCと呼ばれる巨大加速器の高輝度版は、1年にエクサバイト単位のデータを生成する10倍の陽子衝突を生み出します。これは、2012年に2つの実験で宇宙の科学者たちの理解を確認したサブ原子粒子であるヒッグスボソンを発見したときに生成されたものよりも桁違いに多いです。ジュネーブの呼び声彼女は南イタリアで育った最初の日から科学が大好きでした。「大学で、宇宙を支配する基本的な力について学びたかったので、物理学に焦点を合わせました」と彼女は言います。「私はCERNに惹かれました。それは、世界中の異なる地域の人々が科学に共通の情熱を持って一緒に働く場所です。」レマン湖とジュラ山脈の間にある欧州原子核研究機構は、1万2千人以上の物理学者の中心地です。 CERNとフランス・スイス国境にあるLHCの地図（CERN提供の画像） 27キロメートルのリングは、陽子が光速の99.9999991％で疾走する世界最速のレーシングトラックと呼ばれることがあります。超伝導磁石は絶対零度に近く動作し、太陽よりも一時的に何百万倍も熱い衝突を生み出します。ラボのドアを開く 2016年、Gironeは、革新を加速し、将来のコンピューティング課題に取り組むために学術および産業研究者を集めるグループであるCERN openlabのCTOに任命されました。彼女は、イタリアのHPCおよびAIの専門家であるE4 Computer Engineeringとの協力を通じて、NVIDIAと密接に協力しています。最初の行動の1つで、GironeはCERN openlabのAIに関する最初のワークショップを開催しました。産業界の参加者たちは、その技術に熱心でした。物理学者たちは、課題について説明しました。「その日の終わりに、私たちは2つの異なる世界から来たことに気づきましたが、人々はお互いに耳を傾け、熱心に次に何をするか提案しました」と彼女は言います。物理AIの高まり今日、高エネルギー物理学全体のデータ処理チェーンにAIを適用する出版物の数が増加しているとGironeは報告しています。彼女は、複雑な問題をAIで解決する機会を見出す若い研究者を引き付けると述べています。一方、研究者たちは物理ソフトウェアをGPUアクセラレータに移植し、GPU上で実行される既存のAIプログラムを使用しています。「NVIDIAの支援なしに、私たちの研究者が問題を解決し、質問に答え、記事を書くために協力することは、これほど迅速には起こりませんでした」と彼女は言います。「NVIDIAの人々が、科学が技術と並行して進化する方法、およびGPUを用いたアクセラレーションをどのように利用できるかを理解していることは、非常に重要でした。」エネルギー効率は、Gironeのチームの別の優先事項です。…