Learn more about Search Results SDXL 1.0

「SDXL 1.0の登場」

機械学習の急速に進化する世界では、新しいモデルやテクノロジーがほぼ毎日私たちのフィードに押し寄せるため、最新情報を把握し、情報を元にした選択をすることは困難な課題となります今日は、私たちは...

『SDXL 1.0の内部:Stability AI 新しいテキストから画像へのスーパーモデル』

「Stability AIは、安定したDiffusionモデルのリリースにより、テキストから画像への革新の中心にありました最近の数ヶ月間、研究における大きな進展が見られました...」

潜在一貫性LoRAsによる4つのステップでのSDXL

潜在的一貫性モデル(LCM)は、ステーブルディフュージョン(またはSDXL)を使用してイメージを生成するために必要なステップ数を減らす方法です。オリジナルモデルを別のバージョンに蒸留し、元の25〜50ステップではなく4〜8ステップ(少ない)だけを必要とするようにします。蒸留は、新しいモデルを使用してソースモデルからの出力を再現しようとするトレーニング手順の一種です。蒸留されたモデルは、小さく設計される場合があります(これがDistilBERTや最近リリースされたDistil-Whisperの場合)または、この場合のように実行に必要なステップ数を減らします。これは通常、膨大な量のデータ、忍耐力、およびいくつかのGPUが必要な長時間かかる高コストのプロセスです。 それが今日までの現状でした! 私たちは、Stable DiffusionとSDXLを、まるでLCMプロセスを使用して蒸留されたかのように、速くする新しい方法を発表できることを喜ばしく思います!3090で7秒の代わりに約1秒、Macで10倍速くSDXLモデルを実行する、というのはどうですか?詳細は以下をご覧ください! 目次 メソッドの概要 なぜこれが重要なのか SDXL LCM LoRAsによる高速推論 品質の比較 ガイダンススケールとネガティブプロンプト 品質 vs. ベースのSDXL 他のモデルとのLCM LoRAs フルディフューザーズの統合 ベンチマーク 今日リリースされたLCM LoRAsとモデル ボーナス:通常のSDXL LoRAsとの組み合わせ LCM…

「SDXLのためのシンプルな最適化の探究」

ステーブル ディフュージョン XL (SDXL)は、Stability AIによる高品質な超現実的な画像生成を目的とした最新の潜在ディフュージョンモデルです。これは、手やテキストの正確な生成、および空間的に正しい構成といった、以前のステーブル ディフュージョンモデルの課題を克服しています。さらに、SDXLはコンテキストにより適応しており、より見栄えの良い画像を生成するために、プロンプトで少ない単語数を必要とします。 しかし、これらの改善は、かなり大きなモデルのコストで実現されています。具体的には、基本のSDXLモデルには35億のパラメータ(特にUNet)があり、それは以前のステーブル ディフュージョンモデルのおよそ3倍の大きさです。 SDXLの推論速度とメモリ使用量を最適化する方法を探るために、A100 GPU(40 GB)でいくつかのテストを行いました。各推論実行において、4つの画像を生成し、それを3回繰り返し行います。推論レイテンシを計算する際には、3回のイテレーションのうち最終イテレーションのみを考慮します。 つまり、デフォルトの精度とデフォルトのアテンションメカニズムを使用してSDXLをそのまま実行すると、メモリを28GB消費し、72.2秒かかります! from diffusers import StableDiffusionXLPipelinepipeline = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0").to("cuda")pipeline.unet.set_default_attn_processor() しかし、これは非常に実用的ではなく、特に4つ以上の画像を生成する場合には遅くなる可能性があります。また、よりパワフルなGPUを持っていない場合、メモリ不足のエラーメッセージに遭遇するかもしれません。では、どのようにしてSDXLを最適化して推論速度を向上させ、メモリ使用量を減らすことができるでしょうか? 🤗 Diffusersでは、SDXLのようなメモリ集中型モデルを実行するための最適化のトリックとテクニックを数多く提供しています。以下では、推論速度とメモリに焦点を当てます。 推論速度 ディフュージョンはランダムなプロセスですので、好みの画像が得られる保証はありません。よくあるのは、複数回の推論を実行して反復する必要があることです。そのため、速度の最適化が重要です。このセクションでは、低精度の重みとメモリ効率の良いアテンションおよびPyTorch 2.0のtorch.compileの使用に焦点を当てて、速度を向上させ、推論時間を短縮する方法を紹介します。…

ファッションにおけるGenAI | Segmind Stable Diffusion XL 1.0アプローチ

イントロダクション ファッション業界も例外ではなく、消費者の変化する好みに合わせて革新の最前線に留まる方法を模索してきました。もしファッションに興味があり、ファッションフリークであるなら、安定した拡散器の能力を考慮するべきです。セグマインドAPIは、この可能性を容易にします。人工知能(AI)は、デザイナーが製品を作成し、マーケティングし、販売する方法を変えることで、ファッション界においてゲームチェンジャーとして現れました。このブログでは、ファッション業界におけるセグマインドステーブルディフュージョンXL 1.0アプローチとGenAIの意義について探求します。 学習目標 生成型人工知能(Generative Artificial Intelligence)の紹介 ステーブルディフュージョンのアイデア ファッショニスタ向けのGenAIのアプリケーションとユースケース ファッションにおけるステーブルディフュージョンの特徴と可能性 GenAI倫理の概観 この記事は、データサイエンスブログマラソンの一環として公開されました。 生成型AI 生成型人工知能は、過去に学んだ類似性を利用して、これまで存在しなかった新しいアイデアを生成するアプローチを利用するAIの分野です。たとえば、綿のキャラクターにトレーニングされた新しいカートゥーンの画像を生成するGenAIモデルが見られます。AIで行われるように新しい画像を単にカートゥーンかどうかで分類するのではなく、GenAIはトレーニングされた過去の画像を含まない新しいカートゥーン画像を生成することができます。これにより、さまざまな可能性が開かれます。この記事では、ファッショニスタがSegmindモデルを使用する可能性について考えます。 AIとファッションの交差点 先に述べたように、ファッションはクリエイティビティ、トレンド、消費者の好みによって常に進化しています。従来、デザイナーやファッションハウスは、新しいスタイルやコレクションを作成するために人間のクリエイティビティに頼ってきました。このプロセスは時間がかかり、イノベーションを制限することがあります。ここでGenAIが登場するのです。 ファッションにおける生成型AIは、強力なアルゴリズムと膨大なデータセットを活用して、ユニークで革新的なデザイン、パターン、スタイルを生成します。また、ファッションデザイナーやブランドは、クリエイティブなプロセスを効率化し、生産時間を短縮し、新しいクリエイティブなアイデアを探求することも可能にします。 SegmindステーブルディフュージョンXL 1.0の紹介 セグマインドには、さまざまなGenAIタスク用の多様なモデルがあり、そのまま使用できます。これらのモデルはウェブサイトで利用可能で、各オプションに簡単にアクセスできるように構成されています。ランディングページでは、「モデル」のナビゲーションバーからモデルのリストに移動することができます。これにより、特定のユースケースに適したモデルを簡単に見つけることができます。 SegmindステーブルディフュージョンXL 1.0モデルは、ファッショニスタ向けのアプローチを提供します。Segmindの素晴らしい点は、アプリにシームレスに統合できる無料および有料のAPIキーも提供していることです。これは、ファッションアプリ、ウェブサイト、またはプライベートファッションハウスなどになります。これらのいずれも必要ない場合は、プレイグラウンドにアクセスすることもできます。プレイグラウンドでは、プロンプトを入力し、ダウンロードのための画像を表示するために単一のボタンをクリックするだけで済みます。 このモデルにはさまざまなユースケースがありますが、この記事ではファッショニスタ向けの使用方法について探求します。 ステーブルディフュージョンXL…

「T2Iアダプタを使用した効率的で制御可能なSDXL生成」

T2I-Adapterは、オリジナルの大規模なテキストから画像へのモデルを凍結しながら、事前学習されたテキストから画像へのモデルに追加のガイダンスを提供する効率的なプラグアンドプレイモデルです。T2I-Adapterは、T2Iモデル内部の知識を外部の制御信号と整合させます。さまざまな条件に応じてさまざまなアダプタをトレーニングし、豊富な制御と編集効果を実現することができます。 ControlNetは同様の機能を持ち、広く使用されている現代の作業です。しかし、実行するには計算コストが高い場合があります。これは、逆拡散プロセスの各ノイズ除去ステップで、ControlNetとUNetの両方を実行する必要があるためです。さらに、ControlNetは制御モデルとしてUNetエンコーダのコピーを重要視しており、パラメータ数が大きくなるため、生成はControlNetのサイズによって制約されます(サイズが大きければそれだけプロセスが遅くなります)。 T2I-Adapterは、この点でControlNetに比べて競争力のある利点を提供します。T2I-Adapterはサイズが小さく、ControlNetとは異なり、T2I-Adapterはノイズ除去プロセス全体の間ずっと一度だけ実行されます。 過去数週間、DiffusersチームとT2I-Adapterの著者は、diffusersでStable Diffusion XL(SDXL)のT2I-Adapterのサポートを提供するために協力してきました。このブログ記事では、SDXLにおけるT2I-Adapterのトレーニング結果、魅力的な結果、そしてもちろん、さまざまな条件(スケッチ、キャニー、ラインアート、深度、およびオープンポーズ)でのT2I-Adapterのチェックポイントを共有します。 以前のバージョンのT2I-Adapter(SD-1.4/1.5)と比較して、T2I-Adapter-SDXLはまだオリジナルのレシピを使用しており、79Mのアダプタで2.6BのSDXLを駆動しています!T2I-Adapter-SDXLは、強力な制御機能を維持しながら、SDXLの高品質な生成を受け継いでいます。 diffusersを使用してT2I-Adapter-SDXLをトレーニングする 私たちは、diffusersが提供する公式のサンプルを元に、トレーニングスクリプトを作成しました。 このブログ記事で言及するT2I-Adapterモデルのほとんどは、LAION-Aesthetics V2からの3Mの高解像度の画像テキストペアで、以下の設定でトレーニングされました: トレーニングステップ:20000-35000 バッチサイズ:データ並列、単一GPUバッチサイズ16、合計バッチサイズ128。 学習率:定数学習率1e-5。 混合精度:fp16 コミュニティには、スピード、メモリ、品質の間で競争力のあるトレードオフを打つために、私たちのスクリプトを使用してカスタムでパワフルなT2I-Adapterをトレーニングすることをお勧めします。 diffusersでT2I-Adapter-SDXLを使用する ここでは、ラインアートの状態を例にとって、T2I-Adapter-SDXLの使用方法を示します。まず、必要な依存関係をインストールします: pip install -U git+https://github.com/huggingface/diffusers.git pip install…

「Amazon SageMaker StudioでAmazon SageMaker JumpStartを使用して安定したDiffusion XLを利用する」

「今日、私たちはお知らせすることを喜んでいますStable Diffusion XL 1.0(SDXL 1.0)がAmazon SageMaker JumpStartを通じて顧客に利用可能ですSDXL 1.0は、Stability AIからの最新の画像生成モデルですSDXL 1.0の改良点には、さまざまなアスペクト比でのネイティブな1024ピクセルの画像生成が含まれていますプロフェッショナルな使用を目的としており、高解像度に合わせてキャリブレーションされています...」

「セグミンドの生成AIによるエンパワーリングなロゴデザイン」

イントロダクション ブランドの世界では、ロゴがブランドの本質を象徴しています。従来、ロゴの作成にはデザイナーの才能と修正が必要でしたが、セグマインドが登場し、生成的な人工知能(AI)によってロゴデザインを変革しました。セグマインドのAI駆動アプローチはデザインプロセスを簡素化し、創造性を引き出し、制限のないロゴの創造を可能にします。変革の概念である「生成的AI」はデザインデータを学習し、効率的にロゴを自律的に作成することで、人間の創造性を補完し、費用効果の高いソリューションを提供します。本記事では、技術的な優位性から実世界の応用まで、セグマインドの生成的AIがロゴデザインに与える影響について詳しく解説します。技術とデザインの融合がロゴ作成を革新する方法を発見してください。 出典:Adweek 学習目標 ロゴデザインがブランディングにおいて重要である理由やデザインとマーケティングにおいてなぜ重要なのかについて理解する。 主に生成的AIのような人工知能の変革的な役割をロゴデザインにおいて発見し、創造プロセスをどのように向上させるかについて知る。 セグマインドの革新的なプラットフォームについて学び、AIを人間の創造性と組み合わせてロゴデザインを再定義する方法について理解する。 セグマインドの生成的AIの技術的側面に深く入り、ディープラーニングと大規模なデザインデータセットを活用する方法を理解する。 ビジネス、スタートアップ、個人ブランディング、教育などの分野でのAI生成ロゴの実際的な用途を探索し、異なる産業にどのような利益をもたらすかを知る。 ロゴデザインにおける最新トレンド、ミニマリズム、ロゴを通じたストーリーテリング、AIがロゴ作成の未来を形作る役割などについての洞察を得る。 本記事はデータサイエンスブログマラソンの一環として公開されました。 強力なセグマインドの生成的AI 人工知能とデザインの素晴らしい世界において、セグマインドは真のパワーハウスとして進化し、ロゴデザインのための革新的なソリューションを先駆的に提供しています。セグマインドの生成的人工知能は革新、精度、芸術的な才能の証です。セグマインドのロゴデザインへの取り組みは、堅牢で緻密に作り込まれたプラットフォームから始まります。最先端の生成的AIモデルに基づくこのプラットフォームは、ロゴデザインの限界を再定義する創造の触媒です。AIの技術的な優位性をデザイナーの芸術的感性とシームレスに統合し、視覚的に優れただけでなくブランドのアイデンティティと深く共鳴するロゴを生み出します。 セグマインドのAIアルゴリズムの技術的な驚異 セグマインドが他と異なる点は、技術の卓越性に対する献身です。生成的AIのアルゴリズムの基盤となるのは、デザイン原則、美学、ブランドアイデンティティに関する広範なデータに基づいて訓練されたニューラルネットワークです。これらのアルゴリズムはロゴデザインの複雑さを解剖し、カラーパレット、タイポグラフィ、視覚的なモチーフを解読することができます。 セグマインドのAIモデルの核心は、学習と適応の能力にあり、継続的にその創造的な結果を改善します。ディープラーニングを活用してパターンを見つけ出し、生成されるロゴが各ブランドのユニークな本質とシームレスに調和することを保証します。さらに、セグマインドのAIは豊富なデザインの歴史に基づいて訓練され、多様な視覚要素や芸術的スタイルからインスピレーションを得ます。この知識の深さにより、プラットフォームは普通ではないロゴを創り上げ、クライアントに幅広い創造的可能性を提供します。 セグマインドの生成的AIは芸術的な共同創作者であり、デザインのマスターです。創造プロセスを補完し、ロゴデザインを新たな高みに押し上げますが、ブランドの本質と個性を守ります。セグマインドの生成的AIを用いたロゴデザインは、もはや手作業に限定されないものです。これは人間の直感と人工知能が調和する場であり、創造性には制約がありません。このパワーハウスはロゴデザインを革新し、創造的美学の中で見逃せない存在です。 出典:Segmind ロゴデザインにジェネレーティブAIを使用する利点 効率性:ジェネレーティブ人工知能は、従来の複数の修正や長いデザインサイクルを必要とするロゴデザインプロセスを大幅に加速させます。 AIは迅速にロゴのコンセプトを生成でき、時間とリソースの両方を節約します。 費用対効果:特にスタートアップや中小企業の場合、AIはプロのデザイナーやデザインエージェンシーを雇う手頃な代替手段を提供します。高品質のロゴを手に入れるための予算にやさしい方法です。 インスピレーションとアイデア:人工知能はデザイナーやビジネスオーナーのインスピレーションの源です。新鮮なアイデアやデザイン要素を生成し、創造性を引き出し、革新的なロゴのコンセプトを探求するのに役立ちます。 カスタマイズ:ジェネレーティブAIにより、ロゴのカスタマイズが可能になります。ユーザーは色の好み、タイポグラフィ、スタイルを提供し、ロゴを特定のニーズに合わせることができます。…

「🧨 JAXを使用したCloud TPU v5eでの高速で安定したXL推論の拡散を加速する」

生成AIモデルであるStable Diffusion XL(SDXL)などは、幅広い応用において高品質でリアルなコンテンツの作成を可能にします。しかし、このようなモデルの力を利用するには、大きな課題や計算コストが伴います。SDXLは、そのUNetコンポーネントがモデルの以前のバージョンのものよりも約3倍大きい大きな画像生成モデルです。このようなモデルを実稼働環境に展開することは、増加したメモリ要件や推論時間の増加などの理由から難しいです。今日、私たちはHugging Face DiffusersがJAX on Cloud TPUsを使用してSDXLをサポートすることを発表できることを大いに喜んでいます。これにより、高性能でコスト効率の良い推論が可能になります。 Google Cloud TPUsは、大規模なAIモデルのトレーニングや推論を含む、最先端のLLMsや生成AIモデルなどのために最適化されたカスタムデザインのAIアクセラレータです。新しいCloud TPU v5eは、大規模AIトレーニングや推論に必要なコスト効率とパフォーマンスを提供するよう特別に設計されています。TPU v4の半分以下のコストで、より多くの組織がAIモデルのトレーニングと展開が可能になります。 🧨 Diffusers JAX連携は、XLAを介してTPU上でSDXLを実行する便利な方法を提供します。それに対応するデモも作成しました。このデモは、時間のかかる書式変換や通信時間、フロントエンド処理を含めて約4秒で4つの大きな1024×1024の画像を提供するために複数のTPU v5e-4インスタンス(各インスタンスに4つのTPUチップがあります)で実行されます。実際の生成時間は2.3秒です。以下で詳しく見ていきましょう! このブログ記事では、 なぜJAX + TPU + DiffusersはSDXLを実行するための強力なフレームワークなのかを説明します。…

「推論APIを使用してAIコミックファクトリーを展開する」

最近、私たちは「PROsのための推論」という新しいオファリングを発表しました。これにより、より広範なユーザーがより大規模なモデルを利用することが可能になります。この機会が、Hugging Faceをプラットフォームとして使用してエンドユーザーアプリケーションを実行する新たな可能性をもたらします。 そのようなアプリケーションの例としては、「AIコミック工場」があります。これは非常に人気があります。数千人のユーザーがAIコミックパネルを作成するために試しており、独自のコミュニティも形成されています。彼らは自分の作品を共有し、いくつかはプルリクエストを公開しています。 このチュートリアルでは、AIコミック工場をフォークして設定し、長い待ち時間を避け、推論APIを使用して独自のプライベートスペースに展開する方法を紹介します。高い技術的スキルは必要ありませんが、API、環境変数の知識、そしてLLMsとStable Diffusionの一般的な理解が推奨されます。 はじめに まず、PRO Hugging Faceアカウントにサインアップして、Llama-2とSDXLモデルへのアクセス権を取得する必要があります。 AIコミック工場の仕組み AIコミック工場は、Hugging Face上で実行される他のスペースとは少し異なります。それはNextJSアプリケーションで、Dockerを使用して展開され、クライアント-サーバーアプローチに基づいています。2つのAPIが必要です: 言語モデルAPI(現在はLlama-2) Stable Diffusion API(現在はSDXL 1.0) スペースの複製 AIコミック工場を複製するには、スペースに移動し、「複製」をクリックします: スペースの所有者、名前、可視性がすでに入力されていることに気付くでしょう。そのままで構いません。 スペースのコピーは、リソースを多く必要としないDockerコンテナ内で実行されますので、最小のインスタンスを使用できます。公式のAIコミック工場スペースは、多くのユーザーベースを対象としているため、より大きなCPUインスタンスを使用しています。 AIコミック工場を自分のアカウントで操作するには、Hugging Faceトークンを設定する必要があります: LLMとSDエンジンの選択…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us