Learn more about Search Results StableDiffusion - Page 2
- You may be interested
- 「学生が手頃な価格で使える消防ロボット...
- ウィスコンシン大学とバイトダンスの研究...
- 「なぜ機械は思考できるのか」というテー...
- 新しいAI論文で、CMUとGoogleの研究者が言...
- 『平易な日本語で解説する基本的な10の統...
- 「Amazon SageMakerの非同期エンドポイン...
- 「DIRFAは、オーディオクリップをリアルな...
- ボイジャーAGIニュース、10月11日:仕事を...
- 最近の記録的な売上で.AIドメイン名の価値...
- AIにおける音の革命に備えよう 2023年は生...
- AIの力:機械学習アプリケーションの効率...
- 「AIとMLが高い需要になる10の理由」 1. ...
- 「慢性腎臓病の予測:新しい視点」
- MITとETH Zurichの研究者たちが、動的なセ...
- イタリアの新しいAI研究は、音楽合成と音...
キュービットマジック:量子コンピューティングで神話の生物を創造する
しかし、少しの創造力を持つことで、私たちは多くの印象的な偉業を成し遂げることができますその一つに、魅力的な能力であるイメージや音楽の生成がありますそして、この記事では—神話上の生物の可視化が含まれます!
「T2I-Adapter-SDXL:小型で効率的な制御モデルに出会ってください」
T2I-アダプタは、完全な再学習を必要とせずにテキストから画像へのモデルを強化するプラグアンドプレイツールであり、ControlNetなどの代替手法よりも効率的です。内部の知識を外部の信号と整合させ、正確な画像編集を行います。ControlNetとは異なり、T2I-アダプタはノイズ除去プロセス中に一度だけ実行されるため、画像の生成を遅くすることなく、より速く効率的な解決策を提供します。 モデルのパラメータとストレージの要件は、この利点を明確に示しています。たとえば、ControlNet-SDXLは1,251億のパラメータと2.5 GBのストレージをfp16形式で提供しています。対照的に、T2I-Adapter-SDXLはパラメータ(7,900万)とストレージ(158 MB)を大幅に削減し、それぞれ93.69%と94%の削減を実現しています。 https://huggingface.co/blog/t2i-sdxl-adapters DiffusersチームとT2I-アダプタの研究者との最近の共同研究により、Stable Diffusion XL(SDXL)でのT2I-アダプタのサポートが実現しました。この共同研究では、SDXL上でのT2I-アダプタのスクラッチトレーニングに焦点を当て、スケッチ、キャニー、ラインアート、深度、オープンポーズなどのさまざまな条件要素において有望な結果をもたらしました。 T2I-Adapter-SDXLのトレーニングには、LAION-Aesthetics V2からの300万枚の高解像度の画像テキストペアが使用され、トレーニング設定では20,000-35,000ステップ、バッチサイズ128(データパラレルで単一のGPUバッチサイズ16)、定数学習率1e-5、混合精度(fp16)が指定されました。これらの設定は、速度、メモリ効率、画像品質のバランスを取り、コミュニティでの利用を容易にします。 Diffusersフレームワーク内でのT2I-Adapter-SDXLの利用は、一連のステップを通じて容易に行えます。まず、diffusers、controlnet_aux、transformers、accelerateなどの必要な依存関係をインストールする必要があります。次に、T2I-Adapter-SDXLを使用した画像生成プロセスは、適切な制御形式の条件画像を準備し、これらの画像とプロンプトをStableDiffusionXLAdapterPipelineに渡すという2つのステップで主に行われます。 実際の例では、Lineart Adapterがロードされ、入力画像に対してラインアートの検出が行われます。その後、定義されたプロンプトとパラメータを使用して画像生成が開始され、”adapter_conditioning_scale”や”adapter_conditioning_factor”などの引数を介して適用される条件の範囲をユーザーが制御できます。 結論として、T2I-アダプタは、事前学習済みのテキストから画像へのモデルを微調整する計算上の課題に対処する魅力的な代替手段を提供します。その小さなサイズ、効率的な動作、簡単な統合性により、さまざまな条件での画像生成のカスタマイズと制御に貢献し、人工知能の創造性とイノベーションを促進する貴重なツールとなります。
「Flash-AttentionとFlash-Attention-2の理解:言語モデルの文脈長を拡大するための道」
大規模言語モデル(LLM)の文脈を拡大することは、ユースケースの宇宙を拡大するための最大の課題の一つです最近、AnthropicやOpenAIなどのベンダーが見られるようになりました...
「T2Iアダプタを使用した効率的で制御可能なSDXL生成」
T2I-Adapterは、オリジナルの大規模なテキストから画像へのモデルを凍結しながら、事前学習されたテキストから画像へのモデルに追加のガイダンスを提供する効率的なプラグアンドプレイモデルです。T2I-Adapterは、T2Iモデル内部の知識を外部の制御信号と整合させます。さまざまな条件に応じてさまざまなアダプタをトレーニングし、豊富な制御と編集効果を実現することができます。 ControlNetは同様の機能を持ち、広く使用されている現代の作業です。しかし、実行するには計算コストが高い場合があります。これは、逆拡散プロセスの各ノイズ除去ステップで、ControlNetとUNetの両方を実行する必要があるためです。さらに、ControlNetは制御モデルとしてUNetエンコーダのコピーを重要視しており、パラメータ数が大きくなるため、生成はControlNetのサイズによって制約されます(サイズが大きければそれだけプロセスが遅くなります)。 T2I-Adapterは、この点でControlNetに比べて競争力のある利点を提供します。T2I-Adapterはサイズが小さく、ControlNetとは異なり、T2I-Adapterはノイズ除去プロセス全体の間ずっと一度だけ実行されます。 過去数週間、DiffusersチームとT2I-Adapterの著者は、diffusersでStable Diffusion XL(SDXL)のT2I-Adapterのサポートを提供するために協力してきました。このブログ記事では、SDXLにおけるT2I-Adapterのトレーニング結果、魅力的な結果、そしてもちろん、さまざまな条件(スケッチ、キャニー、ラインアート、深度、およびオープンポーズ)でのT2I-Adapterのチェックポイントを共有します。 以前のバージョンのT2I-Adapter(SD-1.4/1.5)と比較して、T2I-Adapter-SDXLはまだオリジナルのレシピを使用しており、79Mのアダプタで2.6BのSDXLを駆動しています!T2I-Adapter-SDXLは、強力な制御機能を維持しながら、SDXLの高品質な生成を受け継いでいます。 diffusersを使用してT2I-Adapter-SDXLをトレーニングする 私たちは、diffusersが提供する公式のサンプルを元に、トレーニングスクリプトを作成しました。 このブログ記事で言及するT2I-Adapterモデルのほとんどは、LAION-Aesthetics V2からの3Mの高解像度の画像テキストペアで、以下の設定でトレーニングされました: トレーニングステップ:20000-35000 バッチサイズ:データ並列、単一GPUバッチサイズ16、合計バッチサイズ128。 学習率:定数学習率1e-5。 混合精度:fp16 コミュニティには、スピード、メモリ、品質の間で競争力のあるトレードオフを打つために、私たちのスクリプトを使用してカスタムでパワフルなT2I-Adapterをトレーニングすることをお勧めします。 diffusersでT2I-Adapter-SDXLを使用する ここでは、ラインアートの状態を例にとって、T2I-Adapter-SDXLの使用方法を示します。まず、必要な依存関係をインストールします: pip install -U git+https://github.com/huggingface/diffusers.git pip install…
「カタストロフィックな忘却を防ぎつつ、タスクに微調整されたモデルのファインチューニングにqLoRAを活用する:LLaMA2(-chat)との事例研究」
大規模言語モデル(LLM)のAnthropicのClaudeやMetaのLLaMA2などは、さまざまな自然言語タスクで印象的な能力を示していますしかし、その知識とタスク固有の...
Amazon SageMakerのマルチモデルエンドポイントを使用して、TorchServeを使ってGPU上で複数の生成AIモデルを実行し、推論コストを最大75%節約できます
最近、生成AIアプリケーションは広範な注目と想像力を引きつけています顧客はGPU上で生成AIモデルを展開したいと思っていますが、同時にコストにも気を使っていますSageMaker MMEはGPUインスタンスをサポートしており、このようなタイプのアプリケーションには最適なオプションです本日は、TorchServeがSageMaker MMEをサポートすることをお知らせしますこの新しいモデルサーバーサポートにより、TorchServeの顧客が最も馴染みのあるサービングスタックを使用しながら、MMEのすべての利点を活用することができますこの記事では、Stable DiffusionやSegment Anything Modelなどの生成AIモデルをTorchServeを使用してSageMaker MME上でホストし、アーティストやコンテンツクリエーターが作品をより速く開発し、イテレーションするための言語による編集ソリューションの構築方法を示します
「トップAIベースのアートインペインティングツール」
人工知能の画像インペインティングは、損傷したり欠落した詳細を復元するためのコンピュータビジョンの手法です。古くなったり損傷した写真を修正するだけでなく、邪魔な背景を切り取ったり、まったく新しい画像を作成することも可能です。既に市場にはいくつかの人工知能(AI)の画像インペインティングプログラムがあり、画像編集に適用すると驚くべき結果を生み出すことができます。 AIの画像インペインティングツールを使用すると、編集中に節約できる時間と労力の量が非常に役立ちます。人工知能アルゴリズムは、欠落したピクセルを自動的に追加したり、望ましくないオブジェクトを削除することで写真を自動的に編集することができ、煩雑な作業を数時間節約することができます。プロの写真家やグラフィックデザイナーは、しばしば厳しい時間制約のもとで多くの写真を扱うため、これに非常に大きな利益を得ることができます。 人工知能(AI)の画像インペインティング技術は、より正確で自然な編集を可能にするための主要な利点です。これらのプログラムは、周囲のピクセルを詳細に分析し、オリジナルのスタイルに完全に一致する現実的な塗りつぶしを作成するために洗練された機械学習アルゴリズムを使用します。この方法を使えば、写真により専門的な仕上げが可能です。人工知能(AI)の画像インペインティングツールは、従来の写真編集手法よりも多くの利点を提供し、迅速かつ容易にプロ品質の結果を生み出すことができます。 以下は、インペインティングの最高のツールのいくつかです Fotor AI FotorのAIパワード画像インペインティングツールを使用して、最小限の努力で美しい写真を作成しましょう。インペインティング安定拡散技術がこの機能のバックボーンであり、ユーザーは簡単に画像を追加または削除することで画像を変更することができます。 AIインペインターを使用すると、望ましい領域にブラシをかけ、必要な指示を提供することで、見事でリアルな効果を作成することができます。 Fotorの人工知能画像インペインティングツールを使用すると、無限の実験とエンターテイメントが可能です。ペットの頭をブラシで描き、指示に従ってさまざまなリアルなアクセサリで見た目をカスタマイズすることができます。 AIフォトフィラーを使用すると、ユーザーは面白くて興味深い写真を作成して友人や家族に自慢することができます。 Nvidia Image Inpainting Nvidiaは、AIを活用した画像修正の画期的な進歩であるImage Inpaintingを発表しました。このソフトウェアは、NVIDIAのGPUと深層学習アルゴリズムを使用して、目立たない隙間なく画像を編集することができます。最先端のシステムであるImage Inpaintingは、NVIDIAのGPU(グラフィックス処理ユニット)を使用して、前例のない速度と精度を提供します。 Image Inpaintingは非常に使いやすいプログラムです。ユーザーはまず画像を選択してアップロードし、マウスを使用して画面の中央にリサイズして配置します。適切な配置が決まった後、アップロードされた画像は自動的にクロップされ、ズームされます。ステップ2のスマートなレタッチブラシで画像の不要な部分をマスクアウトした後、「モデルを適用」を選択して最終的な画像を確認します。深層学習アルゴリズムにより、画像の新しい詳細が古い詳細と完璧に溶け込むようになります。 Classace Inpainting 革命的なClassace Inpaint Image Generatorが一般に公開され、画像編集業界を完全に革新する可能性があります。Classace…
安定した拡散 コミュニティのAI
「ステーブルディフュージョンAIは、革新的な技術により芸術界を革命化し、創造性を高め、芸術の評価を変えています」
PyTorchを使用してx86 CPU上で推論速度を最大9倍高速化する方法
このような深い洞察を含む、さらに週のトップML論文、求人情報、現実世界の経験からのMLのヒント、研究者や開発者からのMLのストーリーを受け取るには、私の...に参加してください
XGen-Image-1の内部:Salesforce Researchが巨大なテキストから画像へのモデルを構築、トレーニング、評価する方法
Salesforceは、新しい基盤モデルの最も活発な研究所の一つです最近、Salesforce Researchは、異なるドメインにわたるさまざまなモデルをリリースしてきました
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.