Search Results Midjourney

「拡散を支配するための1つの拡散：マルチモーダル画像合成のための事前学習済み拡散モデルの調節」

画像生成AIモデルは、ここ数ヶ月でこの領域を席巻しています。おそらく、midjourney、DALL-E、ControlNet、またはStable dDiffusionなどについて聞いたことがあるかもしれません。これらのモデルは、与えられたプロンプトに基づいて写真のようなリアルな画像を生成することができます。与えられたプロンプトがどれほど奇妙であっても、ピカチュウが火星を走り回るのを見たいですか？これらのモデルのいずれかに依頼してみてください。きっと手に入るでしょう。既存の拡散モデルは、大規模なトレーニングデータに依存しています。大規模と言っても本当に大きいです。たとえば、Stable Diffusion自体は、25億以上の画像キャプションのペアでトレーニングされました。ですので、自宅で独自の拡散モデルをトレーニングする予定がある場合は、計算リソースに関して非常に高額な費用がかかるため、再考することをお勧めします。一方、既存のモデルは通常、非条件付きまたはテキストプロンプトのような抽象的な形式に基づいています。これは、画像を生成する際に1つの要素のみを考慮に入れることを意味し、セグメンテーションマップなどの外部情報を渡すことはできません。これは、大規模なデータセットに依存していることと組み合わさると、大規模な生成モデルがトレーニングされていないドメインでは、その適用範囲が制限されることを意味します。この制限を克服するためのアプローチの1つは、特定のドメインに対して事前にトレーニングされたモデルを微調整することです。しかし、これにはモデルのパラメータへのアクセスと、フルモデルの勾配を計算するための膨大な計算リソースが必要です。さらに、フルモデルを微調整すると、その適用範囲と拡張性が制限されるため、新しいフルサイズのモデルが新しいドメインやモダリティの組み合わせごとに必要となります。また、これらのモデルのサイズが大きいため、微調整されたデータの小さなサブセットにすぐにオーバーフィットする傾向があります。また、選択したモダリティに基づいてモデルをゼロからトレーニングすることも可能です。しかし、これはトレーニングデータの入手可能性によって制限され、モデルをゼロからトレーニングするのは非常に高価です。一方、推論時に事前にトレーニングされたモデルを目的の出力に向かってガイドする試みもあります。これには事前にトレーニングされた分類器やCLIPネットワークからの勾配を使用しますが、このアプローチは推論中に多くの計算を追加するため、モデルのサンプリングを遅くします。では、非常に高価なプロセスを必要とせずに、既存のモデルを利用して条件を適用することはできないでしょうか？拡散モードを変更する手間のかかる時間のかかるプロセスに入る必要はありませんか？それでも条件を付けることは可能でしょうか？その答えは「はい」であり、それを紹介します。多モーダルコンディショニングモジュールのユースケース。出典: https://arxiv.org/pdf/2302.12764.pdf 提案されたアプローチ、多モーダルコンディショニングモジュール（MCM）は、既存の拡散ネットワークに統合できるモジュールです。これは、元の拡散ネットワークの予測を各サンプリングタイムステップで調整するためにトレーニングされた小規模の拡散のようなネットワークを使用します。これにより、生成された画像が提供された条件に従うようになります。 MCMは、元の拡散モデルを何らかの方法でトレーニングする必要はありません。トレーニングは、モジュレーションネットワークに対してのみ行われ、小規模でトレーニングコストがかからないです。このアプローチは計算的に効率的であり、大規模な拡散ネットワークの勾配を計算する必要がないため、拡散ネットワークをゼロからトレーニングするか既存の拡散ネットワークを微調整するよりも少ない計算リソースを必要とします。さらに、MCMは、トレーニングデータセットが大規模でない場合でも、一般化能力があります。勾配の計算が必要ないため、推論プロセスを遅くすることはありません。唯一の計算オーバーヘッドは、小規模な拡散ネットワークの実行によるものです。提案されたモジュレーションパイプラインの概要。出典: https://arxiv.org/pdf/2302.12764.pdf マルチモーダル調整モジュールの組み込みにより、セグメンテーションマップやスケッチなどの追加のモダリティによる条件付き画像生成に対して、より多くの制御が加わります。このアプローチの主な貢献は、マルチモーダル調整モジュールの導入です。これは、元のモデルのパラメータを変更せずに事前学習済みの拡散モデルを条件付き画像合成に適応させるための手法であり、ゼロからのトレーニングや大規模なモデルの微調整よりも安価でメモリ使用量も少なく、高品質かつ多様な結果を実現します。論文とプロジェクトをチェックしてください。この研究に関しては、このプロジェクトの研究者に全てのクレジットがあります。また、最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している26k+のML SubReddit、Discordチャンネル、メールニュースレターにもぜひ参加してください。 Tensorleapの説明可能性プラットフォームでディープラーニングの秘密を解き放つこの投稿は「One Diffusion to Rule Diffusion:…

「OpenAIの関数呼び出しの使い方」

関数呼び出しは、大規模な言語モデルを活用したアプリ開発において、可能性を広げる革新ですしかし、私はそれが依然として誤解されていることに気付きました...

このAIニュースレターは、あなたが必要とするすべてです＃57

「AIの世界では、LLMモデルのパフォーマンス評価が注目の話題となりました特に、スタンフォードとバークレーの学生による最近の研究についての活発な議論がありました...」

「AIフィードバックループ：AI生成コンテンツの時代におけるモデルの製品品質の維持」

「AIのフィードバックループが、生成型AIの登場に伴い、モデルの品質維持、効率向上、パフォーマンス向上にどのように役立つかを探索してください」

「Deep Diving Into Llama 2 メタAIの新しいオープンソース基盤モデル」

先週、Meta AIがジェネレーティブAIの分野で話題をさらいましたLlama 2のオープンソースリリースと商業提供が行われましたこのモデルは3つの異なるバージョンがリリースされました 7B、13B、そして...

「Pandasの結合操作を実行するための長すぎる（しかし優れた）ガイド」

現実のデータに付随する良くない衝撃は、それが単一で手順的なCSVファイルではないということです代わりに、共通の列を使用して多くの方法で相互作用する複数のテーブルの束ですそれは...

ゲームにおける人工知能の現代の8つの例

「AIは過去18ヶ月間で多くの業界で注目のキーワードとなっていますそして、ゲームにおける人工知能に関しては、数十年間にわたって常に共存してきましたが、過去2年間はAI、機械学習、その他のツールの利用において急速な進歩が見られました...」

「夢の彫刻：DreamTimeは、テキストから3Dコンテンツ生成の最適化戦略を改善するAIモデルです」

生成型AIモデルは今や私たちの日常の一部です。これらのモデルは近年急速に進化し、結果はおかしな画像から非常に写真のようなものまで、比較的速く進んできました。MidJourney、StableDiffusion、DALL-Eなど、心に描いたイメージを簡単に生成できるようになりました。それだけではありません。私たちはその間に3Dコンテンツ生成の非常に注目すべき進歩を目撃しています。第三の次元が時間（動画）であるか深さ（NeRF、3Dモデル）であるかに関わらず、生成される出力は非常に速く実物に近づいています。これらの生成モデルは3Dモデリングやデザインの専門知識の要件を緩和しました。しかし、全てが順調なわけではありません。3D生成はよりリアルになっていますが、2D生成モデルに比べてまだ大きく遅れています。大規模なテキストから画像へのデータセットは、画像生成アルゴリズムの能力を拡張する上で重要な役割を果たしてきました。しかし、2Dデータは簡単に入手できる一方で、3Dデータへのアクセスは訓練と監視においてより困難であり、3D生成モデルの不足を引き起こしています。既存の3D生成モデルの主な制約は、色の飽和度の不足とテキストから画像へのモデルと比べた多様性の低さです。それでは、DreamTimeというモデルに出会って、これらの制約をどのように克服するか見てみましょう。 DreamTimeは、NeRF（ニューラル放射輝度場）の最適化プロセスにおける制約は、スコア蒸留の一貫したタイムステップサンプリングとの衝突によって主に引き起こされることを示しています。この衝突を解決し、制約を克服するために、モノトニック非減少関数を使用してタイムステップサンプリングを優先する革新的な手法を使用しています。NeRFの最適化プロセスを拡散モデルのサンプリングプロセスに合わせることで、リアルな3Dモデルの生成におけるNeRFの最適化の品質と効果を向上させることを目指しています。 SDS勾配の可視化。出典: https://arxiv.org/pdf/2306.12422.pdf 既存の手法では、飽和した色と制約された多様性を持つモデルがしばしば生成され、コンテンツの作成に障害を引き起こしています。それに対処するため、DreamTimeはテキストから3D生成のための新しい技術であるタイムプライオライズドスコア蒸留サンプリング（TP-SDS）を提案しています。TP-SDSの背後にある主なアイデアは、事前にトレーニングされた拡散モデルによって提供される異なるレベルの視覚的な概念を、さまざまなノイズレベルで優先することです。このアプローチにより、最適化プロセスは詳細の磨きと視覚品質の向上に焦点を当てることができます。非減少のタイムステップサンプリング戦略を取り入れることで、TP-SDSはテキストから3Dの最適化プロセスを拡散モデルのサンプリングプロセスに合わせます。 DreamTimeによって生成されたサンプル結果。出典: https://arxiv.org/pdf/2306.12422.pdf TP-SDSの効果を評価するため、DreamTimeの著者は包括的な実験を行い、標準のスコア蒸留サンプリング（SDS）手法とのパフォーマンスを比較しました。彼らは数式、勾配の可視化、周波数解析を通じて、テキストから3Dの最適化と一様なタイムステップサンプリングの衝突を分析しました。その結果、提案されたTP-SDSアプローチは既存の手法を上回り、テキストから3Dの生成の品質と多様性を大幅に向上させることが示されました。

「データサイエンスのプログラムでは教えてくれないが知っておくべき8つのこと−パート1」

データサイエンティストが持つべき基本知識Pythonの仮想環境、データサイエンティストのためのLinux、リモートシステムでの計算、デバッグ

「影に注意：AIとダークパターンが私たちのデジタルライフに存在する」

アラームが鳴って目が覚め、スマートフォンでメールをチェックし、天気予報や予定を確認し、お気に入りのコーヒーショップのアプリでラテを注文して、取りに行くために…

Learn more about Search Results Midjourney - Page 22