Learn more about Search Results StableDiffusion

「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階のサンプリング手順は、望ましい結果を得るために多くの推論ステップを要求することが多く、その鈍さで認識されています。本論文では、著者らはオープンソースのStable Diffusion(SD)モデルから派生した革新的なワンステップ生成モデルを紹介しています。 彼らは、SDを蒸留しようとする単純な試みが、重大な問題であるノイズと画像の非最適な結合によって完全に失敗したことを発見しました。この課題を克服するために、研究者たちは確率的フローを組み込んだ生成モデルの最近の進展であるRectified Flowに頼りました。Rectified Flowは、確率フローの軌跡を徐々に直線化するというユニークな手法である「リフロー」を組み込んでいます。 これにより、ノイズ分布と画像分布間の輸送コストが低減されます。この結合の改善により、蒸留プロセスが大幅に容易になり、初期の問題が解決されます。上記の画像はInstaflowの動作を示しています。 MS COCO 2017-5kデータセットにおけるFID(フレシェ・インセプション・ディスタンス)スコア23.3により、ワンステップ拡散ベースのテキストから画像への生成モデルの利用が証明されました。これは、従来のプログレッシブ蒸留と呼ばれる最新の技術(37.2 → 23.3のFID)と比べて、大幅な改善を示しています。さらに、17億のパラメータを備えた拡張ネットワークを使用することで、FIDをさらに向上させ、22.4のスコアを達成しました。このワンステップモデルは「InstaFlow」と呼ばれています。 MS COCO 2014-30kデータセットでは、InstaFlowは0.09秒でFID 13.1という優れたパフォーマンスを示し、≤ 0.1秒のカテゴリで最も優れたパフォーマーとなっています。これは、最近のStyleGAN-Tモデル(0.1秒でFID 13.9)を上回ります。特筆すべきは、InstaFlowのトレーニングにはわずか199 A100 GPU日という比較的低い計算コストがかかります。 これらの結果に基づき、研究者たちは以下の貢献を提案しています: ワンステップSDの改善: 2-Rectified Flowモデルのトレーニングは完全に収束せず、75.2 A100…

デジタルアートの革新:ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能(AI)に興味を引かせています。問題は、DALL-EやStableDiffusionなどの既存のAIツールによって生成される単なるコラージュの模倣にとどまらず、本物のコラージュを自律的に作成できるAIエージェントを育成する必要がある点にあります。ソウル大学の研究者たちは、人間の芸術家が行う緻密な手順を再現して本物のコラージュを作成できるAIエージェントを育成するという使命に取り組んでいます。 既存のAIツールはコラージュのような画像を生成できますが、真のコラージュ作成プロセスの本物さが求められます。ソウル大学の研究チームは、強化学習(RL)を活用してAIエージェントに「本物のコラージュ」の制作を学ばせる画期的な手法を導入しています。この手法は、ピクセルベースの手法とは異なり、有名な作品や他の画像を再現するために素材を引き裂き、貼り付けることを含みます。研究者たちは、既存のツールの制約から離れてRLに取り組み、AIエージェントにコラージュ作成の微妙な手順を理解し実行する能力を与えました。 研究者の方法論は、RLモデルをキャンバスと対話させ、コラージュ作成プロセスの各ステップで判断を下すように訓練することを含みます。訓練中はランダムに割り当てられた画像をエージェントに与え、後の段階でどのターゲットや素材にも適応できるように学習します。多様な切り抜きや貼り付けのオプションを通じて、RLエージェントは材料を実験し、ターゲットの画像に似たコラージュを生成するのに最適なものを見つけます。報酬システムは時間とともに進化し、エージェントが作成したコラージュとターゲット画像との類似性を主に高めます。 重要な要素の一つは、微分可能なコラージュ環境の開発であり、モデルベースのRLの適用を可能にします。この環境により、エージェントはコラージュ作成プロセスの動態を容易に追跡することができます。研究チームのモデルは、さまざまな画像やシナリオに対して優れた汎化性能を示しています。このアーキテクチャは自律性が特筆されます。そのため、学習に大量のサンプルデータやデモデータが必要なく、RLが提供する強力なデータフリーラーニングドメインを重視しています。 評価にはユーザースタディとCLIPベースの評価が含まれます。その結果、他のピクセルベースの生成モデルと比較して優れたパフォーマンスを示しています。この手法は、人間の芸術的才能と創造性に似たAI生成のコラージュを実現しようとする重要な進展を表しています。 まとめると、ソウル大学の研究チームは、強化学習を使用して本物のコラージュ作成のためのAIエージェントの訓練の課題に成功しました。既存のピクセルベースの手法を超える革新的なモデルは、本物のコラージュ作成における複雑な手順を自律的に学習し実行する能力をRLが提供する可能性を示しています。ユーザースタディと客観的評価によって検証されたこのアプローチは、人間の芸術の深みを反映したAI生成アートの大きな進歩を示しています。このブレークスルーにより、機械が視覚芸術の世界に有意義に貢献する可能性を秘めたAIによる芸術創造の新たな可能性が開かれました。 “`

「マシンの学習を忘れることを学ぶ」

現代のテクノロジーの世界では、機械学習について聞かない人を見つけるのは困難でしょう過去10年間、この研究分野はとてもトレンディで、産業外の人々にさえ広まっています...

簡単なアプリの統合に最適な安定した拡散APIのトップ5

イントロダクション APIは人工知能の時代における解決策であり、AIモデルをソフトウェアやアプリケーションに統合する際の高い計算要件を管理する企業にとって重要な課題です。その解決策として、Application Programming Interfaces(API)が存在します。APIはメンテナンスの手間を省き、ビジネスロジックとユーザーエクスペリエンスに集中できるようにしてくれます。つまり、誰でもこれらのAPIを活用してアプリを構築し、商品化できます。本記事では、画像生成に焦点を当てた一連のGenerative AIモデルであるStable Diffusion APIsについて詳しく説明します。 まずは非常に効率的かつ効果的なオプションであるSegmind APIについて見ていきましょう。これらのAPIは、開発者、デザイナー、クリエイターが視覚コンテンツの生成に取り組む方法を革新しました。トップ5のStable Diffusion APIsを探求し、その特徴、使用用途、価格などをハイライトします。 学習目標 Stable Diffusionモデルに関する洞察を得る。 Stable Diffusionモデルの基礎を理解する。それには、その応用も含まれます。 現代のソフトウェア開発におけるAPIの理解。 APIがソフトウェアおよびアプリケーションの開発を簡素化する際に果たす重要な役割の探求。 この記事はData Science Blogathonの一環として公開されました。 Stable Diffusionモデルの理解 Stable…

テキストから画像への革命:SegmindのSD-1Bモデルが最速のゲームで登場

紹介 Segmind AIは、画期的なオープンソースのテキストから画像への生成モデルであるSSD-1B(Segmind Stable Diffusion 1B)を誇りに思って発表しました。この高速モデルは、前例のない速度、コンパクトなデザイン、高品質な視覚出力を実現しています。人工知能は、自然言語処理とコンピュータビジョンの分野で急速な進歩を示し、境界を再定義する革新を示しています。SSD 1Bモデルは、その主な特徴によりコンピュータビジョンへの扉を開きます。この包括的な記事では、モデルの特徴、使用例、アーキテクチャ、トレーニング情報などについて詳しく説明します。 学習目標 SSD-1Bのアーキテクチャの概要を探索し、専門モデルからの知識蒸留の活用方法を理解する。 SegmindプラットフォームでSSD-1Bモデルを活用して、高速な推論とコード推論を試して実践的な経験を得る。 後続の使用例について学び、SSD-1Bモデルが特定のタスクに使用できる方法を理解する。 特に絶対的な写真リアリズムの達成と特定のシナリオでのテキストの明瞭性を維持するためのSSD-1Bの限界を認識する。 この記事は、Data Science Blogathonの一環として公開されました。 モデルの説明 生成的な人工知能を使用する際の主な課題は、サイズと速度の問題です。テキストベースの言語モデルを扱うことは、モデル全体の重みを読み込む問題と推論時間の問題になりますが、安定な拡散を使った画像の場合はさらに困難になります。SSD-1Bは、高品質なテキストから画像への生成能力を維持しながら、SDXLの50%小さい蒸留版であり、60%の高速化が実現されています。GritとMidjourneyのスクレープデータを含むさまざまなデータセットでトレーニングされており、単語に基づいた視覚的な内容の作成に優れています。これは、専門モデル(SDXL、ZavyChromaXL、JuggernautXL)からの知識の戦略的な蒸留と豊富なデータセットでのトレーニングによって達成されました。この蒸留プロセスにより、SSD-1Bは様々なコマンドを処理する能力を備えています。 Segmind SD-1Bの主な特徴 テキストから画像の生成: テキストのプロンプトから画像を生成することに優れ、創造的なアプリケーションが可能です。 高速化のために蒸留: 効率化のために設計され、リアルタイムアプリケーションでの実用的な使用を60%高速化します。 多様なトレーニングデータ:…

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

このチュートリアルでは、Amazon Bedrockを使用してGoで画像生成ソリューションを構築し、AWS CDKを使用して展開する方法を学びます

「Amazon Bedrockを使用した生成型AIアプリ:Go開発者のための入門ガイド」

「AWS Go SDKとAmazon Bedrock Foundation Models(FMs)を使用して、コンテンツ生成、チャットアプリケーションの構築、ストリーミングデータの処理などのタスクを実行します」

「SDXLのためのシンプルな最適化の探究」

ステーブル ディフュージョン XL (SDXL)は、Stability AIによる高品質な超現実的な画像生成を目的とした最新の潜在ディフュージョンモデルです。これは、手やテキストの正確な生成、および空間的に正しい構成といった、以前のステーブル ディフュージョンモデルの課題を克服しています。さらに、SDXLはコンテキストにより適応しており、より見栄えの良い画像を生成するために、プロンプトで少ない単語数を必要とします。 しかし、これらの改善は、かなり大きなモデルのコストで実現されています。具体的には、基本のSDXLモデルには35億のパラメータ(特にUNet)があり、それは以前のステーブル ディフュージョンモデルのおよそ3倍の大きさです。 SDXLの推論速度とメモリ使用量を最適化する方法を探るために、A100 GPU(40 GB)でいくつかのテストを行いました。各推論実行において、4つの画像を生成し、それを3回繰り返し行います。推論レイテンシを計算する際には、3回のイテレーションのうち最終イテレーションのみを考慮します。 つまり、デフォルトの精度とデフォルトのアテンションメカニズムを使用してSDXLをそのまま実行すると、メモリを28GB消費し、72.2秒かかります! from diffusers import StableDiffusionXLPipelinepipeline = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0").to("cuda")pipeline.unet.set_default_attn_processor() しかし、これは非常に実用的ではなく、特に4つ以上の画像を生成する場合には遅くなる可能性があります。また、よりパワフルなGPUを持っていない場合、メモリ不足のエラーメッセージに遭遇するかもしれません。では、どのようにしてSDXLを最適化して推論速度を向上させ、メモリ使用量を減らすことができるでしょうか? 🤗 Diffusersでは、SDXLのようなメモリ集中型モデルを実行するための最適化のトリックとテクニックを数多く提供しています。以下では、推論速度とメモリに焦点を当てます。 推論速度 ディフュージョンはランダムなプロセスですので、好みの画像が得られる保証はありません。よくあるのは、複数回の推論を実行して反復する必要があることです。そのため、速度の最適化が重要です。このセクションでは、低精度の重みとメモリ効率の良いアテンションおよびPyTorch 2.0のtorch.compileの使用に焦点を当てて、速度を向上させ、推論時間を短縮する方法を紹介します。…

中途の旅行 vs 安定した拡散:AI画像生成器の戦い

「Midjourney vs Stable Diffusion、あなたにとって最適なのはどちら?両方のAI画像生成機の強みと弱みを探ってみましょう」

「🧨 JAXを使用したCloud TPU v5eでの高速で安定したXL推論の拡散を加速する」

生成AIモデルであるStable Diffusion XL(SDXL)などは、幅広い応用において高品質でリアルなコンテンツの作成を可能にします。しかし、このようなモデルの力を利用するには、大きな課題や計算コストが伴います。SDXLは、そのUNetコンポーネントがモデルの以前のバージョンのものよりも約3倍大きい大きな画像生成モデルです。このようなモデルを実稼働環境に展開することは、増加したメモリ要件や推論時間の増加などの理由から難しいです。今日、私たちはHugging Face DiffusersがJAX on Cloud TPUsを使用してSDXLをサポートすることを発表できることを大いに喜んでいます。これにより、高性能でコスト効率の良い推論が可能になります。 Google Cloud TPUsは、大規模なAIモデルのトレーニングや推論を含む、最先端のLLMsや生成AIモデルなどのために最適化されたカスタムデザインのAIアクセラレータです。新しいCloud TPU v5eは、大規模AIトレーニングや推論に必要なコスト効率とパフォーマンスを提供するよう特別に設計されています。TPU v4の半分以下のコストで、より多くの組織がAIモデルのトレーニングと展開が可能になります。 🧨 Diffusers JAX連携は、XLAを介してTPU上でSDXLを実行する便利な方法を提供します。それに対応するデモも作成しました。このデモは、時間のかかる書式変換や通信時間、フロントエンド処理を含めて約4秒で4つの大きな1024×1024の画像を提供するために複数のTPU v5e-4インスタンス(各インスタンスに4つのTPUチップがあります)で実行されます。実際の生成時間は2.3秒です。以下で詳しく見ていきましょう! このブログ記事では、 なぜJAX + TPU + DiffusersはSDXLを実行するための強力なフレームワークなのかを説明します。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us