Learn more about Search Results StableDiffusion - Page 3

ベントMLを使用したHugging Faceモデルのデプロイ:DeepFloyd IFのアクション

Hugging Faceは、モデルを簡単にアップロード、共有、展開することができるHubプラットフォームを提供しています。これにより、モデルをゼロからトレーニングするために必要な時間と計算リソースを開発者が節約することができます。ただし、実世界のプロダクション環境やクラウドネイティブの方法でモデルを展開することはまだ課題があります。 ここでBentoMLが登場します。BentoMLは、機械学習モデルのサービングと展開のためのオープンソースプラットフォームです。これは、従来の、事前トレーニング済みの、生成モデルおよび大規模言語モデルを組み込んだ本番向けのAIアプリケーションを構築、出荷、スケーリングするための統一されたフレームワークです。以下は、BentoMLフレームワークを高レベルで使用する方法です: モデルの定義:BentoMLを使用するには、機械学習モデル(または複数のモデル)が必要です。このモデルは、TensorFlowやPyTorchなどの機械学習ライブラリを使用してトレーニングできます。 モデルの保存:トレーニング済みのモデルをBentoMLのローカルモデルストアに保存します。これは、すべてのトレーニング済みモデルをローカルで管理し、サービングにアクセスするために使用されます。 BentoMLサービスの作成:モデルをラップし、サービスのロジックを定義するためにservice.pyファイルを作成します。これは、モデルの推論をスケールで実行するためのランナーを指定し、入力と出力の処理方法を定義するAPIを公開します。 Bentoのビルド:構成YAMLファイルを作成することで、すべてのモデルとサービスをパッケージ化し、コードと依存関係を含む展開可能なアーティファクトであるBentoを作成します。 Bentoの展開:Bentoが準備できたら、Bentoをコンテナ化してDockerイメージを作成し、Kubernetes上で実行することができます。または、Bentoを直接Yataiに展開することもできます。Yataiは、Kubernetes上での機械学習デプロイメントを自動化および実行するためのオープンソースのエンドツーエンドソリューションです。 このブログ投稿では、上記のワークフローに従ってDeepFloyd IFをBentoMLと統合する方法をデモンストレーションします。 目次 DeepFloyd IFの簡単な紹介 環境の準備 BentoMLモデルストアへのモデルのダウンロード BentoMLサービスの開始 Bentoのビルドとサービスの提供 サーバーのテスト 次のステップ DeepFloyd IFの簡単な紹介 DeepFloyd IFは、最先端のオープンソースのテキストから画像へのモデルです。Stable Diffusionのような潜在的な拡散モデルとは異なる運用戦略とアーキテクチャを持っています。…

「ChatGPTを使用して完全な製品を作成するために学んだ7つの教訓」

つい最近、私はChatGPTを使って自分自身のフランス語のチューターを作成したことを共有しました(それはオープンソースです、ところで)私はアプリの設計方法(特にバックエンド)と接続方法について説明しました...

「Amazon SageMakerを使用して、生成AIを使ってパーソナライズされたアバターを作成する」

生成AIは、エンターテイメント、広告、グラフィックデザインなど、さまざまな産業で創造プロセスを向上させ、加速させるための一般的なツールとなっていますそれにより、観客によりパーソナライズされた体験が可能となり、最終製品の全体的な品質も向上します生成AIの一つの重要な利点は、ユーザーに対してユニークでパーソナライズされた体験を作り出すことです例えば、[…]

創造力を解き放つ:ジェネレーティブAIとAmazon SageMakerがビジネスを支援し、AWSを活用したマーケティングキャンペーンの広告クリエイティブを生み出します

広告代理店は、生成AIとテキストから画像を生成する基礎モデルを使用して、革新的な広告クリエイティブとコンテンツを作成することができますこの記事では、Amazon SageMakerを使用して既存のベース画像から新しい画像を生成する方法を示しますAmazon SageMakerは、スケーラブルなMLモデルを構築、トレーニング、展開するための完全な管理サービスですこのソリューションを使用することで、大規模なビジネスでも[…]

AIアートのマスタリング:中間の旅とプロンプトエンジニアリングへの簡潔なガイド

Midjourneyのマスタリングに最適な初心者向けガイドに飛び込んでみてくださいAI画像生成、高度なプロンプト、革新的な機能を簡単で分かりやすいステップで探索してくださいAI芸術の力を活用したい愛好家やプロフェッショナルに最適です

AWS Inferentia2を使用して、安定したディフュージョンのパフォーマンスを最大化し、推論コストを低減します

生成型AIモデルは、最近の数ヶ月間で急速に成長しており、リアルなテキスト、画像、コード、音声の作成能力において印象的な能力を持っていますこれらのモデルの中でも、Stable Diffusionモデルは、テキストのプロンプトに基づいて高品質な画像を作成するというユニークな強みを持っていますStable Diffusionは、[…]を含む様々な高品質な画像を生成することができます

「ChatGPTにおける適切なプロンプト設計の必須ガイド」

「Prompt Engineering」に没頭して、急速に成長しているChatGPTユーザーベースに与える影響に焦点を当てた詳細なガイドで、プロンプトエンジニアリングについて探求してみてくださいプロンプトエンジニアリングとは何か、どのようにプロンプトエンジニアになるか、トップの技術やこのトレンドのあるAIキャリアパスの可能性をつかんでください

「夢の彫刻:DreamTimeは、テキストから3Dコンテンツ生成の最適化戦略を改善するAIモデルです」

生成型AIモデルは今や私たちの日常の一部です。これらのモデルは近年急速に進化し、結果はおかしな画像から非常に写真のようなものまで、比較的速く進んできました。MidJourney、StableDiffusion、DALL-Eなど、心に描いたイメージを簡単に生成できるようになりました。 それだけではありません。私たちはその間に3Dコンテンツ生成の非常に注目すべき進歩を目撃しています。第三の次元が時間(動画)であるか深さ(NeRF、3Dモデル)であるかに関わらず、生成される出力は非常に速く実物に近づいています。これらの生成モデルは3Dモデリングやデザインの専門知識の要件を緩和しました。 しかし、全てが順調なわけではありません。3D生成はよりリアルになっていますが、2D生成モデルに比べてまだ大きく遅れています。大規模なテキストから画像へのデータセットは、画像生成アルゴリズムの能力を拡張する上で重要な役割を果たしてきました。しかし、2Dデータは簡単に入手できる一方で、3Dデータへのアクセスは訓練と監視においてより困難であり、3D生成モデルの不足を引き起こしています。 既存の3D生成モデルの主な制約は、色の飽和度の不足とテキストから画像へのモデルと比べた多様性の低さです。それでは、DreamTimeというモデルに出会って、これらの制約をどのように克服するか見てみましょう。 DreamTimeは、NeRF(ニューラル放射輝度場)の最適化プロセスにおける制約は、スコア蒸留の一貫したタイムステップサンプリングとの衝突によって主に引き起こされることを示しています。この衝突を解決し、制約を克服するために、モノトニック非減少関数を使用してタイムステップサンプリングを優先する革新的な手法を使用しています。NeRFの最適化プロセスを拡散モデルのサンプリングプロセスに合わせることで、リアルな3Dモデルの生成におけるNeRFの最適化の品質と効果を向上させることを目指しています。 SDS勾配の可視化。出典: https://arxiv.org/pdf/2306.12422.pdf 既存の手法では、飽和した色と制約された多様性を持つモデルがしばしば生成され、コンテンツの作成に障害を引き起こしています。それに対処するため、DreamTimeはテキストから3D生成のための新しい技術であるタイムプライオライズドスコア蒸留サンプリング(TP-SDS)を提案しています。TP-SDSの背後にある主なアイデアは、事前にトレーニングされた拡散モデルによって提供される異なるレベルの視覚的な概念を、さまざまなノイズレベルで優先することです。このアプローチにより、最適化プロセスは詳細の磨きと視覚品質の向上に焦点を当てることができます。非減少のタイムステップサンプリング戦略を取り入れることで、TP-SDSはテキストから3Dの最適化プロセスを拡散モデルのサンプリングプロセスに合わせます。 DreamTimeによって生成されたサンプル結果。出典: https://arxiv.org/pdf/2306.12422.pdf TP-SDSの効果を評価するため、DreamTimeの著者は包括的な実験を行い、標準のスコア蒸留サンプリング(SDS)手法とのパフォーマンスを比較しました。彼らは数式、勾配の可視化、周波数解析を通じて、テキストから3Dの最適化と一様なタイムステップサンプリングの衝突を分析しました。その結果、提案されたTP-SDSアプローチは既存の手法を上回り、テキストから3Dの生成の品質と多様性を大幅に向上させることが示されました。

新しいAIメソッド、StyleAvatar3Dによるスタイル化された3Dアバターの生成画像テキスト拡散モデルとGANベースの3D生成ネットワークを使用

大規模な画像とテキストのペアリング、拡散モデルなどの洗練された生成モデルの進化により、生成モデルは高品質な2D画像を生成する上で非常に進歩を遂げています。これらのモデルにより、ユーザーはテキストの手がかりから現実的なビジュアルを作成することができ、手動の関与を排除することができます。しかし、2Dの対応物と比較して、3Dの生成モデルは多様性とアクセシビリティの点で重要な問題に直面しています。ソフトウェアエンジンでの3Dアセットの手作業による開発の難しさと高度な専門知識により、高品質な3Dモデルの入手が制限されています。 この問題に対処するため、研究者は最近、高品質な3Dモデルを生成するための事前学習された画像とテキストの生成方法を調査しています。これらのモデルには、アイテムのジオメトリと外観の詳細な事前知識が含まれており、現実的かつ多様な3Dモデルの作成を容易にすることができます。この研究では、テンセント、南洋理工大学、復旦大学、浙江大学の研究者が、既にトレーニングを終えたテキストから画像への拡散モデルを使用して、ユーザーがテキストプロンプトを通じてアバターのスタイルと顔の特徴を選択できる3Dスタイルのアバターを作成するためのユニークな方法を提案しています。彼らはEG3DというGANベースの3D生成ネットワークを使用しており、これにはいくつかの利点があります。 まず、EG3Dはトレーニングに3Dデータではなく校正写真を使用しているため、改善された画像データを使用して3Dモデルのバラエティとリアリティを持続的に向上させることができます。このことは2Dの写真に対しては非常に簡単です。また、彼らは各視点を独立して生成することができ、トレーニングに使用される画像は外観の多視点均一性を厳密に要求されないため、画像形成中のランダム性を効果的に制御することができます。彼らの手法では、StableDiffusionに基づくControlNetを使用して、予め決められた姿勢によって指示された画像生成を許可し、EG3Dのトレーニング用の校正済み2Dトレーニング画像を作成しています。 姿勢写真からカメラの特性を再利用することで、現在のエンジンのアバターから合成または取得することができます。しかし、正確な姿勢写真を使用していても、ControlNetは頭の後ろなどの大きな角度での視点を作成するのに苦労することがよくあります。これらの失敗した出力によって、完全な3Dモデルの生成が改善される必要があります。彼らはこの問題に対処するために、2つの異なるアプローチを採用しています。まず、画像生成中の失敗の発生を大幅に減らすために、さまざまな視点のためのビュー固有のプロンプトを作成しました。視点固有の手がかりを使用していても、合成された写真は姿勢写真と部分的に一致する場合があります。 この不一致を解消するために、彼らは3D GANトレーニングのための粗いから細かいポーズ認識器を作成しました。彼らのシステムの各画像データには粗い姿勢と細かい姿勢の注釈があります。GANトレーニング中にランダムにトレーニング注釈を選択します。正面の顔などの確信度の高い視点には、良いポーズの注釈を採用する可能性が高いですが、他の視点の学習は粗いアイデアによります。この方法により、入力写真に乱雑な注釈が含まれている場合でも、より正確かつ多様な3Dモデルを生成することができます。さらに、彼らはStyleGANの潜在的なスタイル空間における条件付き3D生成を可能にする潜在的な拡散モデルを作成しました。 スタイルコードの低次元、高い表現力、コンパクトさにより、拡散モデルは高速にトレーニングすることができます。彼らはトレーニング済みの3Dジェネレータから直接画像とスタイルコードのペアリングをサンプリングして拡散モデルを学習します。彼らは多数の大規模なデータセットで包括的なテストを実施し、提案された戦略の有効性を評価しました。その結果、彼らの手法は視覚的な品質と多様性の点で現代の最先端の技術を上回っていることがわかりました。結論として、この研究は訓練済みの画像とテキストの拡散モデルを使用して高品質な3Dアバターを生成するユニークな手法を紹介しています。 彼らのアーキテクチャは、スタイルや顔の特徴をテキストの手がかりによって決定することで、アバターの制作の柔軟性を大幅に向上させます。また、画像の位置の誤った配置の問題に対処するために、粗いから細かい姿勢認識器を提案しています。これにより、誤った姿勢注釈を持つ画像データをより良い方法で使用することができます。さらに、画像入力を使用して条件付きの3D生成を可能にする追加の条件付き生成モジュールも作成しました。 スタイル空間の潜在的な拡散モデルとしてのこのモジュールは、フレームワークの適応性をさらに高め、ユーザーが好みに合わせてカスタマイズされた3Dモデルを作成することができます。彼らはコードをオープンソース化する予定です。

スタンフォード研究所がFlashAttention-2を発表:長い文脈の言語モデルの速度と効率の飛躍

過去の1年間、自然言語処理は著しい進歩を遂げており、長い文脈を備えた言語モデルが登場しました。これらのモデルには、32kの文脈長を持つGPT-4、65kの文脈を持つMosaicMLのMPT、そして驚異的な100kの文脈長を誇るAnthropicのClaudeなどがあります。長いドキュメントのクエリやストーリー作成などのアプリケーションが成長し続ける中、拡張された文脈を持つ言語モデルの需要が明らかになってきました。ただし、課題は、トランスフォーマーの文脈長を拡大することであり、その注意層は入力シーケンスの長さと二乗的に増加する計算とメモリの要件があります。 この課題に取り組むために、わずか1年前にリリースされた革新的なアルゴリズムであるFlashAttentionは、さまざまな組織や研究所で急速に採用されました。このアルゴリズムは、精度を損なうことなく注意の計算を加速し、そのメモリの使用量を削減することに成功しました。初期リリース時に最適化されたベースラインと比較して2〜4倍高速なパフォーマンスを発揮したFlashAttentionは、画期的な進歩を証明しました。しかし、A100 GPUで最大124 TFLOPs/sを達成した高速最適化マトリックス乗算(GEMM)操作には及びませんでした。 次なる飛躍を遂げたFlashAttentionの開発者は、FlashAttention-2という前作を大幅に上回る再発明版を発表しました。NvidiaのCUTLASS 3.xとCuTeコアライブラリを活用したFlashAttention-2は、A100 GPU上で最大230 TFLOPs/sの驚異的なスピードアップを実現しています。さらに、GPTスタイルの言語モデルのエンドツーエンドトレーニングでは、FlashAttention-2は最大225 TFLOPs/sのトレーニング速度を実現し、驚異的な72%のモデルFLOP利用率を達成しています。 FlashAttention-2の主な改良点は、より優れた並列性と作業の分割戦略にあります。最初に、FlashAttentionはバッチサイズとヘッド数を並列化し、GPU上の計算リソースを効果的に活用しました。しかし、バッチサイズが小さいか、ヘッド数が少ない長いシーケンスの場合、FlashAttention-2はシーケンス長の次元で並列化するようになり、これによりこれらのシナリオで大幅なスピードアップが実現されました。 もう一つの改善点は、各スレッドブロック内の異なるワープ間での効率的な作業の分割です。FlashAttentionでは、KとVを4つのワープに分割し、Qをすべてのワープでアクセス可能な状態に保つ「sliced-K」スキームは、不要な共有メモリの読み書きを引き起こし、計算を遅くしました。FlashAttention-2は異なるアプローチを取り、KとVをすべてのワープでアクセス可能な状態に保ちながら、Qを4つのワープに分割するようにしました。これにより、ワープ間の通信が不要となり、共有メモリの読み書きが大幅に削減され、パフォーマンスがさらに向上しました。 FlashAttention-2は、その適用範囲を広げ、機能を向上させるためにいくつかの新機能を導入しています。最大256のヘッド次元をサポートし、GPT-J、CodeGen、CodeGen2、およびStableDiffusion 1.xなどのモデルを収容できるようになり、より高速化とメモリの節約の機会が広がりました。さらに、FlashAttention-2はマルチクエリアテンション(MQA)およびグループ化クエリアテンション(GQA)のバリアントに対応し、クエリの複数のヘッドがキーと値の同じヘッドにアテンドできるようになり、推論のスループットとパフォーマンスが向上します。 FlashAttention-2のパフォーマンスは本当に印象的です。A100 80GB SXM4 GPUでベンチマークを行った結果、前作と比較して約2倍の高速化を実現し、PyTorchの標準的なアテンション実装と比較して最大9倍の高速化を達成しました。さらに、GPTスタイルのモデルのエンドツーエンドトレーニングに使用すると、FlashAttention-2は既に高度に最適化されたモデルに比べて1.3倍のエンドツーエンドの高速化を実現します。 FlashAttention-2の将来の応用は非常に有望です。前作の8k文脈モデルと同じ価格で16kより長い文脈のモデルをトレーニングできる能力により、この技術は長い本、レポート、高解像度の画像、音声、ビデオの分析に役立つことができます。H100 GPUやAMD GPUなどのデバイスへの広範な適用と、fp8などの新しいデータタイプへの最適化の計画も進行中です。さらに、FlashAttention-2の低レベルの最適化を高レベルのアルゴリズムの変更と組み合わせることで、前例のない長い文脈でのAIモデルのトレーニングの可能性が開かれるかもしれません。プログラム性を向上させるためのコンパイラ研究者との協力も展望されており、次世代の言語モデルに明るい未来が約束されています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us