Learn more about Search Results 構成 - Page 171
- You may be interested
- DeepSpeedを使用してPyTorchを加速し、Int...
- AMD + 🤗 AMD GPUでの大規模言語モデルの...
- ロボットスキル合成のための言語から報酬...
- 「ML技術はがん治療率をより正確に予測す...
- 「UCIとハーバードの研究者が、ユーザーに...
- 「Amazon SageMakerの最新機能を使用する...
- 予測保守を理解する-データの取得と信号の...
- 「ヴォン・グームと出会う 大規模な言語モ...
- 「アニマ・アナンドクマールとともにAIを...
- 冷静でクールで創造的:MUEスタジオが3Dシ...
- 「トランスフォーマーの単純化:あなたが...
- 「PIXART-αに会ってください:画像生成の...
- 「DALL-E3」を詳しく見てみる
- UC Berkeleyの研究者がゴーストバスターを...
- 「将来に備えたデータゲーム:2023年に必...
スピードは必要なすべてです:GPU意識の最適化による大規模拡散モデルのオンデバイス加速化
コアシステム&エクスペリエンスのソフトウェアエンジニアであるJuhyun LeeとRaman Sarokinによる投稿 画像生成のための大規模な拡散モデルの普及により、モデルサイズと推論ワークロードは大幅に増加しました。モバイル環境でのオンデバイスML推論には、リソース制約のために緻密なパフォーマンス最適化とトレードオフの考慮が必要です。コスト効率とユーザープライバシーの必要性により、大規模拡散モデル(LDM)のオンデバイスでの実行は、これらのモデルの大幅なメモリ要件と計算要件のために更に大きな課題を提供します。 本稿では、私たちの「速さこそがすべて:GPUによる大規模拡散モデルのオンデバイスアクセラレーションによる最適化」に焦点を当て、モバイルGPU上の基本的なLDMモデルの最適化された実行について述べます。このブログ記事では、Stable Diffusionなどの大規模拡散モデルを高速で実行するために使用した主なテクニックをまとめ、512×512ピクセルのフル解像度で20回イテレーションを行い、蒸留なしでオリジナルモデルの高性能推論速度で12秒未満で実行できるようにしました。前回のブログ記事で述べたように、GPUアクセラレーションされたML推論は、メモリのパフォーマンスに制限されることがよくあります。そして、LDMの実行も例外ではありません。したがって、私たちの最適化の中心テーマは、演算論理ユニットの効率性を優先するものよりも、メモリの入出力(I/O)の効率性であり、ML推論の全体的なレイテンシを減らすことです。 LDMのサンプル出力。プロンプトテキスト:「周りの花と可愛い子犬の写真リアルな高解像度画像」。 メモリ効率のための強化されたアテンションモジュール ML推論エンジンは通常、最適化されたさまざまなML操作を提供します。しかし、各ニューラルネット演算子を実行するためのオーバーヘッドがあるため、最適なパフォーマンスを達成することは依然として難しい場合があります。このオーバーヘッドを緩和するため、ML推論エンジンは、複数の演算子を1つの演算子に統合する広範な演算子フュージョンルールを組み込んで、テンソル要素を横断するイテレーション数を減らすことで、イテレーションあたりの計算を最大限に増やします。たとえば、TensorFlow Liteは、畳み込みのような計算負荷の高い演算と、後続の活性化関数であるReLUのような演算を組み合わせる演算子フュージョンを利用しています。 最適化の明らかな機会は、LDMのデノイザーモデルで採用された頻繁に使用されるアテンションブロックです。アテンションブロックにより、重要な領域に重みを割り当てることで、モデルは入力の特定の部分に焦点を当てることができます。アテンションモジュールを最適化する方法は複数ありますが、以下に説明する2つの最適化のうち、どちらが優れたパフォーマンスを発揮するかに応じて、選択的に1つを使用します。 第1の最適化である部分的にフュージョンされたsoftmaxは、アテンションモジュール内のsoftmaxと行列乗算の間の詳細なメモリ書き込みと読み取りを省略します。アテンションブロックが単純な行列乗算であると仮定すると、Y = softmax(X)* Wの形式で表されます。ここで、XとWはそれぞれa×bおよびb×cの2D行列です(下図参照)。 数値の安定性のために、T= softmax(X)は、通常、3つのパスで計算されます。 リストの最大値を決定し、行ごとに行列Xを計算します 各リスト項目の指数関数と最大値(パス1から)の差を合計します アイテムから最大値を引いた指数関数を、パス2からの合計で除算します これらのパスを単純に実行すると、中間テンソル T に全体のsoftmax関数の出力が格納されるため、巨大なメモリ書き込みが必要になります。パス1と2の結果のみを保存するテクニックを使用することで、m と…
フォトグラメトリとは何ですか?
「ストリートビュー」のおかげで、現代の地図ツールを使って、レストランを調べたり、周辺のランドマークを見て方向を確認したり、道路上にいるかのような体験をシミュレーションしたりすることができます。 これらの3Dビューを作成するための技術は、フォトグラメトリと呼ばれます。つまり、画像をキャプチャして繋ぎ合わせて物理世界のデジタルモデルを作成するプロセスです。 それはまるでジグソーパズルのようで、各ピースは画像で構成されます。そして、キャプチャされた画像が多ければ多いほど、3Dモデルはより現実的で詳細になります。 フォトグラメトリの作業方法 フォトグラメトリ技術は、建築や考古学などのさまざまな産業にも応用できます。例えば、フォトグラメトリの早い例の一つは、1849年にフランスの軍人アイメ・ローセダがテラストリアル写真を使用して、パリのイノディル旅館で最初の建築調査を行ったことです。 可能な限り多くの領域や環境の写真を撮影して、チームは現場のデジタルモデルを構築して表示・分析することができます。 3Dスキャンは、シーン内のポイントの位置を測定するために構造化されたレーザー光を使用するのに対し、フォトグラメトリは実際の画像を使用してオブジェクトをキャプチャして3Dモデルに変換します。これは、良好なフォトグラメトリには良好なデータセットが必要であることを意味します。また、サイト、記念碑、または遺物のすべての領域がカバーされるように、正しいパターンで写真を撮ることが重要です。 フォトグラメトリの種類 今日、シーンを繋ぎ合わせたい場合、被写体の複数の角度から写真を撮影し、専用のアプリケーションで組み合わせてオーバーラップデータを抽出して3Dモデルを作成することができます。 3ds-scan.de提供のイメージ。 フォトグラメトリには、空中フォトグラメトリと地上フォトグラメトリの2種類があります。 空中フォトグラメトリは、カメラを空中に置いて上から写真を撮影することで、一般的には大きなサイトやアクセスが困難な場所で使用されます。空中フォトグラメトリは、林業や自然資源管理で地理情報データベースを作成するために最も広く使用されています。 地上フォトグラメトリ、またはクローズレンジフォトグラメトリは、よりオブジェクトに焦点を当てたもので、手持ちのカメラまたは三脚に取り付けたカメラで撮影された画像に頼ることが多いです。これにより、現場でのデータ収集が迅速に行われ、より詳細な画像キャプチャが可能になります。 GPUを使用したフォトグラメトリワークフローの加速 最も正確なフォトグラメトリの結果を得るには、チームは巨大な高精度のデータセットが必要です。より多くの写真を撮影すると、より正確で精密なモデルが得られます。ただし、大規模なデータセットは処理に時間がかかり、チームはファイルを処理するためにより多くのコンピュータパワーが必要です。 GPUの最新の進歩は、チームがこれを解決するのに役立ちます。NVIDIA RTXカードなどの高度なGPUを使用することで、ユーザーは処理を高速化し、より高精度なモデルを維持しながら、より大きなデータセットを入力することができます。 例えば、建設チームは、建設現場の進捗状況を示すためにフォトグラメトリ技術を頼りにすることがよくあります。一部の企業は、サイトの画像をキャプチャして仮想的なウォークスルーを作成します。しかし、パワー不足のシステムはチョッピーな視覚体験をもたらし、クライアントやプロジェクトチームとの作業セッションから注意を逸らしてしまいます。 RTXプロフェッショナルGPUの大きなメモリを使用すると、建築家、エンジニア、デザイナーは巨大なデータセットを簡単に管理して、フォトグラメトリモデルをより速く作成・処理することができます。 考古学者ダリア・ダバルは、NVIDIA RTXを使用して、遺物やサイトの高品質なモデルを作成・レンダリングするスキルを拡大しています。 フォトグラメトリは、写真のベクトル化を支援するためにGPUパワーを使用するため、何千もの画像を繋ぎ合わせる作業を加速します。そして、RTXプロフェッショナルGPUのリアルタイムレンダリングとAI機能により、チームは3Dワークフローを加速し、フォトリアルなレンダリングを作成し、3Dモデルを最新の状態に保つことができます。 フォトグラメトリの歴史と将来 フォトグラメトリのアイデアは、写真術の発明の4世紀前の15世紀末にまで遡ります。レオナルド・ダ・ヴィンチは、透視と射影幾何学の原理を開発し、フォトグラメトリの基盤となる柱を築きました。…
Python開発のための12のVSCodeのヒントとトリック
VSCode からより少なくしてより多くを達成するための簡単なヒント
Rによるディープラーニング
このチュートリアルでは、Rで深層学習タスクを実行する方法を学びます
5つの複雑なSQL問題を解決する:トリッキーなクエリの説明
PythonからSQLに切り替える際に、15年のアナリティクスプロフェッショナルであるJosh Berryが経験した5つの難しい点例やSQLコードを提供し、SQLを自分のプロジェクトにカスタマイズするためのリソースを提供します
エンジニアからDeclarative MLを使ったMLエンジニアになろう
機械学習の宣言的アプローチを用いて、わずか数行のコードでAIモデルを簡単に構築し、独自のLLMをカスタマイズする方法を学んでください
データサイエンスチームの協力のための5つのベストプラクティス
データサイエンスチームがより効果的に協力し、プロジェクトが実際のビジネス価値を提供するようにするための5つの方法
MLOpsを拡張するためのプレイブック
MLOpsチームは、AIを拡大するための能力を向上させるように圧力を受けています私たちはフォード・モーターと協力して、組織内でMLOpsを拡大する方法や、どのように始めるかを探ることにしました
PandasGUIによるデータ分析の革新
PandasGUIは、前例のないシンプルで効率的なデータ分析を実現します
機械学習モデルのための高度な特徴選択技術
特徴選択のマスタリング:教師あり・教師なし機械学習モデルの高度な技術の探求
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.