Search Results v5e

「🧨 JAXを使用したCloud TPU v5eでの高速で安定したXL推論の拡散を加速する」

生成AIモデルであるStable Diffusion XL（SDXL）などは、幅広い応用において高品質でリアルなコンテンツの作成を可能にします。しかし、このようなモデルの力を利用するには、大きな課題や計算コストが伴います。SDXLは、そのUNetコンポーネントがモデルの以前のバージョンのものよりも約3倍大きい大きな画像生成モデルです。このようなモデルを実稼働環境に展開することは、増加したメモリ要件や推論時間の増加などの理由から難しいです。今日、私たちはHugging Face DiffusersがJAX on Cloud TPUsを使用してSDXLをサポートすることを発表できることを大いに喜んでいます。これにより、高性能でコスト効率の良い推論が可能になります。 Google Cloud TPUsは、大規模なAIモデルのトレーニングや推論を含む、最先端のLLMsや生成AIモデルなどのために最適化されたカスタムデザインのAIアクセラレータです。新しいCloud TPU v5eは、大規模AIトレーニングや推論に必要なコスト効率とパフォーマンスを提供するよう特別に設計されています。TPU v4の半分以下のコストで、より多くの組織がAIモデルのトレーニングと展開が可能になります。 🧨 Diffusers JAX連携は、XLAを介してTPU上でSDXLを実行する便利な方法を提供します。それに対応するデモも作成しました。このデモは、時間のかかる書式変換や通信時間、フロントエンド処理を含めて約4秒で4つの大きな1024×1024の画像を提供するために複数のTPU v5e-4インスタンス（各インスタンスに4つのTPUチップがあります）で実行されます。実際の生成時間は2.3秒です。以下で詳しく見ていきましょう！このブログ記事では、なぜJAX + TPU + DiffusersはSDXLを実行するための強力なフレームワークなのかを説明します。…

「GoogleがCloud TPU v5pとAIハイパーコンピューターを発表：AI処理能力の飛躍」

Googleは、AIハイパーコンピュータと呼ばれる画期的なスーパーコンピューターアーキテクチャと共に、テンサープロセッシングユニットのリリースで波紋を広げました。これらの革新的なリリースは、リソース管理ツールのダイナミックワークロードスケジューラーとともに、組織のAIタスクの処理における重要な前進を示しています。直近の11月にリリースされたv5eに継ぎ、Googleの最もパワフルなTPUであるCloud TPU v5pは、従来の設計とは異なり、性能志向のデザインを採用しており、処理能力の大幅な向上を約束しています。ポッドごとに8,960個のチップを装備し、チップ間のインターコネクションスピードは4,800 Gbpsを誇ります。このバージョンは、前のTPU v4と比べて倍のFLOPSと高帯域幅メモリ（HBM）の3倍の印象的な増加を提供します。パフォーマンスへの注力が大きな成果をもたらし、Cloud TPU v5pは、大規模なLLMモデルのトレーニング時にTPU v4と比べて驚異的な2.8倍の速度向上を実証しています。さらに、第2世代のSparseCoresを活用することで、v5pは前任者に比べて組み込み密なモデルのトレーニング速度が1.9倍速くなります。一方、AIハイパーコンピューターは、スーパーコンピューターアーキテクチャの革新的な存在となっています。最適化されたパフォーマンスハードウェア、オープンソースソフトウェア、主要な機械学習フレームワーク、そして適応的な消費モデルを組み合わせています。AIハイパーコンピューターは、単一のコンポーネントの補強ではなく、協力的なシステム設計を活用して、トレーニング、微調整、そしてサービスのドメイン全体でAIの効率と生産性を向上させています。この高度なアーキテクチャは、超大規模なデータセンターインフラストラクチャをベースに、厳密に最適化された計算、ストレージ、ネットワークデザインを特徴としています。さらに、JAX、TensorFlow、PyTorchなどの機械学習フレームワークをサポートするオープンソースソフトウェアを介して関連するハードウェアへのアクセスも提供しています。この統合は、Multislice TrainingやMultihost Inferencingなどのソフトウェアと、Google Kubernetes Engine（GKE）やGoogle Compute Engineとの深い統合にも及びます。 AIハイパーコンピューターを特筆するのは、AIタスクに特化した柔軟な消費モデルです。革新的なダイナミックワークロードスケジューラーやCommitted Use Discounts（CUD）、オンデマンド、スポットなどの伝統的な消費モデルを導入しています。このリソース管理およびタスクスケジューリングプラットフォームは、Cloud TPUとNvidia GPUをサポートし、ユーザーの支出を最適化するために必要なすべてのアクセラレーターのスケジュールを効率化します。このモデルでは、Flex…

「Googleが最新のAIモデルGeminiを発表」

Google DeepMindのCEO兼共同創設者であるデミス・ハサビスとGoogleのCEOサンダー・ピチャイは、待望のAIモデル「ジェミニ」を紹介しましたこのテックジャイアントのAIモデルは、人工知能の領域を再定義すると言われています同社のブログ投稿によれば、ジェミニは最先端の機能を提供し、OpenAIをも凌駕する可能性があると約束されています...

潜在一貫性LoRAsによる4つのステップでのSDXL

潜在的一貫性モデル（LCM）は、ステーブルディフュージョン（またはSDXL）を使用してイメージを生成するために必要なステップ数を減らす方法です。オリジナルモデルを別のバージョンに蒸留し、元の25〜50ステップではなく4〜8ステップ（少ない）だけを必要とするようにします。蒸留は、新しいモデルを使用してソースモデルからの出力を再現しようとするトレーニング手順の一種です。蒸留されたモデルは、小さく設計される場合があります（これがDistilBERTや最近リリースされたDistil-Whisperの場合）または、この場合のように実行に必要なステップ数を減らします。これは通常、膨大な量のデータ、忍耐力、およびいくつかのGPUが必要な長時間かかる高コストのプロセスです。それが今日までの現状でした！私たちは、Stable DiffusionとSDXLを、まるでLCMプロセスを使用して蒸留されたかのように、速くする新しい方法を発表できることを喜ばしく思います！3090で7秒の代わりに約1秒、Macで10倍速くSDXLモデルを実行する、というのはどうですか？詳細は以下をご覧ください！目次メソッドの概要なぜこれが重要なのか SDXL LCM LoRAsによる高速推論品質の比較ガイダンススケールとネガティブプロンプト品質 vs. ベースのSDXL 他のモデルとのLCM LoRAs フルディフューザーズの統合ベンチマーク今日リリースされたLCM LoRAsとモデルボーナス：通常のSDXL LoRAsとの組み合わせ LCM…

統計的推定と推論の初心者向け解説

大数の法則と中心極限定理書籍「データサイエンス-統計と機械学習の入門」からの抜粋

「SDXLのためのシンプルな最適化の探究」

ステーブルディフュージョン XL (SDXL)は、Stability AIによる高品質な超現実的な画像生成を目的とした最新の潜在ディフュージョンモデルです。これは、手やテキストの正確な生成、および空間的に正しい構成といった、以前のステーブルディフュージョンモデルの課題を克服しています。さらに、SDXLはコンテキストにより適応しており、より見栄えの良い画像を生成するために、プロンプトで少ない単語数を必要とします。しかし、これらの改善は、かなり大きなモデルのコストで実現されています。具体的には、基本のSDXLモデルには35億のパラメータ（特にUNet）があり、それは以前のステーブルディフュージョンモデルのおよそ3倍の大きさです。 SDXLの推論速度とメモリ使用量を最適化する方法を探るために、A100 GPU（40 GB）でいくつかのテストを行いました。各推論実行において、4つの画像を生成し、それを3回繰り返し行います。推論レイテンシを計算する際には、3回のイテレーションのうち最終イテレーションのみを考慮します。つまり、デフォルトの精度とデフォルトのアテンションメカニズムを使用してSDXLをそのまま実行すると、メモリを28GB消費し、72.2秒かかります！ from diffusers import StableDiffusionXLPipelinepipeline = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0").to("cuda")pipeline.unet.set_default_attn_processor() しかし、これは非常に実用的ではなく、特に4つ以上の画像を生成する場合には遅くなる可能性があります。また、よりパワフルなGPUを持っていない場合、メモリ不足のエラーメッセージに遭遇するかもしれません。では、どのようにしてSDXLを最適化して推論速度を向上させ、メモリ使用量を減らすことができるでしょうか？ 🤗 Diffusersでは、SDXLのようなメモリ集中型モデルを実行するための最適化のトリックとテクニックを数多く提供しています。以下では、推論速度とメモリに焦点を当てます。推論速度ディフュージョンはランダムなプロセスですので、好みの画像が得られる保証はありません。よくあるのは、複数回の推論を実行して反復する必要があることです。そのため、速度の最適化が重要です。このセクションでは、低精度の重みとメモリ効率の良いアテンションおよびPyTorch 2.0のtorch.compileの使用に焦点を当てて、速度を向上させ、推論時間を短縮する方法を紹介します。…

AI

Learn more about Search Results v5e

「🧨 JAXを使用したCloud TPU v5eでの高速で安定したXL推論の拡散を加速する」

「GoogleがCloud TPU v5pとAIハイパーコンピューターを発表：AI処理能力の飛躍」

「Googleが最新のAIモデルGeminiを発表」

潜在一貫性LoRAsによる4つのステップでのSDXL

統計的推定と推論の初心者向け解説

「SDXLのためのシンプルな最適化の探究」

JAXを使用してRL環境をベクトル化・並列化する：光の速さでのQ学習⚡

中途の旅行 vs 安定した拡散：AI画像生成器の戦い

「Amazon SageMakerを使用して、マルチモダリティモデルを用いた画像からテキストへの生成型AIアプリケーションを構築する」

「私たちの10の最大のAIの瞬間」

Find the right Blockchain Investment for you