ハッピーな1周年 🤗 ディフューザーズ!

Happy 1st anniversary 🤗 Diffusers!

🤗 Diffusersは、1周年を迎えることを喜んでいます!エキサイティングな1年であり、コミュニティとオープンソースの貢献者のおかげで、私たちは遠くまで来ることができました。昨年、DALL-E 2、Imagen、およびStable Diffusionなどのテキストから画像を生成するモデルが世界の注目を集め、生成AIの興味と開発が急速に広がりました。しかし、これらの強力なモデルへのアクセスは制限されていました。

Hugging Faceでは、協力し合い、オープンで倫理的なAIの未来を共に築くために、良い機械学習を民主化することをミッションとしています。このミッションに基づき、🤗 Diffusersライブラリを作成しました。これにより、誰もがテキストから画像を実験、研究、または単に遊ぶことができます。そのため、ライブラリをモジュール化されたツールボックスとして設計しました。モデルのコンポーネントをカスタマイズするか、そのまま使うことができます。

🤗 Diffusersが1周年を迎えるにあたり、コミュニティの助けを借りてライブラリに追加されたいくつかの注目すべき機能について概要をご紹介します。私たちは、アクセスしやすい使用方法を促進し、テキストから画像を生成するだけでなく、拡散モデルをさらに推進し、万能なインスピレーションを提供する熱心なコミュニティの一員であることを誇りに思っています。

目次

  • 写真のリアルさを追求する
  • ビデオパイプライン
  • テキストから3Dモデルへ
  • 画像編集パイプライン
  • 高速拡散モデル
  • 倫理と安全
  • LoRAのサポート
  • Torch 2.0の最適化
  • コミュニティのハイライト
  • 🤗 Diffusersを使用して製品を作成する
  • 将来に向けて

写真のリアルさを追求する

生成AIモデルは、写真のようなリアルな画像を作成することで知られていますが、よく見ると、手の上に余分な指が生成されるなど、正しくないと思われることがあります。今年は、DeepFloyd IFとStability AI SDXLモデルが登場し、生成される画像の品質をさらに高め、より写真のようになりました。

DeepFloyd IF – 画像を生成するための異なるプロセスを含むモジュラーな拡散モデル(例えば、画像を3倍に拡大してより高解像度の画像を生成します)。Stable Diffusionとは異なり、IFモデルはピクセルレベルで直接作用し、大規模な言語モデルを使用してテキストをエンコードします。

Stable Diffusion XL(SDXL)- Stability AIの最新のStable Diffusionモデルで、前身であるStable Diffusion 2と比べてかなりのパラメータを持っています。ベースモデルを使用してプロンプトに厳密に従い、細部や高周波コンテンツに特化したリファイナーモデルを利用して、超リアルな画像を生成します。

DeepFloyd IFドキュメントとSDXLドキュメントにアクセスして、独自の画像を生成する方法を学んでみてください!

ビデオパイプライン

テキストから画像へのパイプラインは素晴らしいですが、テキストからビデオへのパイプラインはさらに素晴らしいです!現在、2つのテキストからビデオへのパイプライン、VideoFusionとText2Video-Zeroをサポートしています。

テキストから画像へのパイプラインにすでに慣れている場合、テキストからビデオへのパイプラインの使用方法は非常に似ています:

import torch
from diffusers import DiffusionPipeline
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()

prompt = "ダース・ベイダーが波乗りをしている"
video_frames = pipe(prompt, num_frames=24).frames
video_path = export_to_video(video_frames)

🤗 Diffusersの2年目には、テキストからビデオへの革命が起こることを期待しており、言語からの映像生成の限界を押し上げるためにコミュニティがどのようなものを作り出すかを楽しみにしています!

テキストから3Dモデルへ

テキストからビデオだけでなく、OpenAIのShap-Eモデルにより、テキストから3D生成も可能になりました。Shap-Eは、大規模な3Dテキストペアのデータセットをエンコードすることで訓練され、拡散モデルはエンコーダーの出力に基づいて条件付けされます。ビデオゲーム、インテリアデザイン、建築のための3Dアセットを設計することができます。

ShapEPipelineShapEImg2ImgPipelineを使って、ぜひ試してみてください。

画像編集パイプライン

画像編集は、ファッション、マテリアルデザイン、写真など、最も実用的なユースケースの一つです。ディフュージョンモデルを使用することで、画像編集の可能性はますます広がっています。

🤗 Diffusersには、画像編集をサポートするための多くのパイプラインがあります。プロンプトとして編集内容を記述する画像編集パイプラインや、画像から概念を削除するパイプライン、さらには複数の生成方法を統一してパノラマのような高品質な画像を作成するパイプラインなどがあります。🤗 Diffusersを使用すると、写真編集の未来を今すぐ試すことができます!

高速なディフュージョンモデル

ディフュージョンモデルは、反復的なステップのため時間がかかることで知られています。OpenAIのConsistency Modelsを使用すると、画像生成プロセスが大幅に高速化されます。256×256ピクセルの解像度の画像を生成するのに、現代のCPUでわずか3/4秒しかかかりません!🤗 DiffusersのConsistencyModelPipelineを使用して、これを試すことができます。

高速なディフュージョンモデルに加えて、PyTorch 2.0のscaled_dot_product_attention()(SDPA)やtorch.compile()、スライスアテンション、フィードフォワードチャンキング、VAEタイリング、CPUおよびモデルオフロードなど、より高速な推論のための多くの最適化技術も提供しています。これらの最適化はメモリを節約し、より高速な生成を実現し、一般のGPUでの推論を可能にします。🤗 Diffusersでモデルを配布すると、これらの最適化がすぐにサポートされます!

さらに、ONNXやApple Siliconコンピュータ向けのmps PyTorchデバイス、Core MLなど、特定のハードウェアやフォーマットもサポートしています。

🤗 Diffusersで推論を最適化する詳細については、ドキュメントをご覧ください!

倫理と安全性

生成モデルは素晴らしいですが、有害なおよびNSFWなコンテンツを生成する可能性もあります。ユーザーがこれらのモデルと責任を持って適切に対話するために、不適切なコンテンツを検出するsafety_checkerコンポーネントを追加しました。モデルの作成者は、必要に応じてこのコンポーネントをモデルに組み込むことができます。

さらに、生成モデルはディスインフォメーションを生成するためにも使用されることがあります。今年早くも、バレンシアガのポープがバイラルになりましたが、その画像は偽物であるにもかかわらず、非常にリアルであるということが注目されました。これは、生成されたコンテンツと人間のコンテンツを区別するメカニズムの重要性と必要性を強調しています。そのため、SDXLモデルで生成された画像には目に見えない透かしを追加し、ユーザーがよりよく情報を得るのを支援しています。

これらの機能の開発は、当社の倫理規定に基づいて行われており、ドキュメントで確認することができます。

LoRAへのサポート

ディフュージョンモデルの微調整は高価であり、ほとんどの一般的なGPUでは手が届かないものです。このギャップを埋めるために、Low-Rank Adaptation(LoRA)技術を追加しました。LoRAは、パラメーター効率の良い微調整の方法であり、大きなディフュージョンモデルをより速く微調整し、より少ないメモリを消費することができます。生成されたモデルの重みも、元のモデルに比べて非常に軽量ですので、独自のモデルを簡単に共有することができます。詳細については、ドキュメントをご覧ください。Stable Diffusion with LoRAでの微調整と推論の方法が説明されています。

LoRAに加えて、DreamBooth、テキスト反転、カスタムディフュージョンなど、個別の生成のための他のトレーニング技術もサポートしています!

Torch 2.0の最適化

PyTorch 2.0ではtorch.compile()scaled_dot_product_attention()などのサポートが導入され、アテンションメカニズムのより効率的な実装が行われています。🤗 Diffusersはこれらの機能に対して一流のサポートを提供しており、推論のレイテンシーが大幅に高速化されるため、2倍以上の速度向上が実現されます!

視覚コンテンツ(画像、ビデオ、3Dアセットなど)に加えて、音声のサポートも追加しました!詳細については、ドキュメントをご覧ください。

コミュニティのハイライト

過去の1年間で最も喜ばしい経験の一つは、コミュニティが🤗 Diffusersを自身のプロジェクトに取り入れている様子を見ることです。テキストから画像へのモデルの高速トレーニングにLow-rank adaptation(LoRA)を適用したり、最先端のインペイントツールを構築したりするなど、いくつかのお気に入りのプロジェクトをご紹介します:

また、Google Cloudと協力して(彼らが計算リソースを提供してくれました)、コミュニティがTPUを使用してディフュージョンモデルをトレーニングするための技術的なガイダンスとメンターシップを提供しました(イベントの概要はこちらでご確認いただけます)。ControlNetとSegment Anythingを組み合わせたこのデモなど、多くのクールなモデルがありました。

最後に、300人以上の貢献者からコードベースへの貢献を受け、最もオープンな方法で協力することができました。以下はコミュニティからのいくつかの貢献です:

  • @bahjat-kawarによるモデルの編集、モデルの暗黙の前提条件を編集するためのパイプライン
  • @estelleaflによるLDM3D、3Dイメージの拡散モデル
  • @LuChengTHUによるDPMSolver、推論速度を大幅に向上させるための改善
  • @nupurkmr9によるカスタム拡散、被写体のわずかな画像だけで個人用画像を生成する技術

これら以外にも、以下の貢献者に感謝の意を表します。(特定の順序ではありません):

  • @takuma104
  • @nipunjindal
  • @isamu-isozaki
  • @piEsposito
  • @Birch-san
  • @LuChengTHU
  • @duongna21
  • @clarencechen
  • @dg845
  • @Abhinay1997
  • @camenduru
  • @ayushtues

🤗 Diffusersを使用した製品の開発

昨年、多くの企業が🤗 Diffusersを利用して製品を開発しました。以下は注目すべき製品のいくつかです:

  • PlaiDay:「PlaiDayは人々が協力し、作成し、つながるためのジェネレーティブAI体験です。当社のプラットフォームは人間の無限の創造力を引き出し、表現のための安全で楽しいソーシャルキャンバスを提供します。」
  • Previs One:「Previs Oneは映画やテレビの組成ルールを理解するシネマティックなストーリーボーディングおよびプレビジュアライゼーションのための拡散パイプラインです。」
  • Zust.AI:「ジェネレーティブAIを活用して、ブランドやマーケティングエージェンシー向けのスタジオクオリティの商品写真を作成します。」
  • Dashtoon:「Dashtoonはビジュアルコンテンツの作成と消費のためのプラットフォームを構築しています。複数のLORAをロードする複数のパイプライン、複数のコントロールネット、さらには拡散モデルによって駆動される複数のモデルを持っています。Diffusersにより、製品エンジニアとMLエンジニアの間のギャップが非常に低くなり、dashtoonはユーザー価値をより速くかつより良く提供できるようになりました。」
  • Virtual Staging AI:「生成モデルを使用して美しい家具で空き部屋を埋めます。」
  • Hexo.AI:「Hexo AIは個別のマーケティングでブランドのROIを向上させるお手伝いをします。Hexoは顧客データを取り込み、ブランドに準拠した個別のクリエイティブを生成する専用のキャンペーン生成エンジンを構築しています。」

もし🤗 Diffusersを使用して製品を開発している場合は、一緒にライブラリをより良くするためにお話しできればと思います!お気軽に[email protected]または[email protected]までご連絡ください。

これからの展望

1周年を祝う中、私たちはコミュニティとオープンソースの貢献者に感謝しています。彼らのおかげで、わずかな時間でこんなに進歩することができました。この秋のICCV 2023で🤗 Diffusersのデモを行う予定ですので、参加予定の方はぜひお越しください!私たちは引き続きライブラリを開発・改善し、誰もが簡単に使用できるようにしていきます。また、コミュニティが私たちのツールやリソースを活用して作成する次のものにも期待しています。これまでの旅の一部であることに感謝し、一緒に優れた機械学習を民主化し続けることを楽しみにしています! 🥳

❤️ Diffusersチーム


謝辞:Omar Sanseviero、Patrick von Platen、Giada Pistilliにはレビューしていただき、サムネイルのデザインにはChunte Leeに感謝いたします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです