Swift 🧨ディフューザー – Mac用の高速安定拡散

Swift 🧨ディフューザー - Mac用の高速安定拡散

Diffusers for Macを使用して、最新の拡散モデルによってテキストを美しい画像に簡単に変換できます。このネイティブアプリは、Hugging Face Hubへのコミュニティの貢献によって提供された最先端のテキストから画像へのモデルを活用し、高速なパフォーマンスのためにCore MLに変換されています。最新バージョンの1.1は、Mac App Storeで利用可能であり、パフォーマンスの大幅なアップグレードと使いやすいインターフェースの調整が行われています。これは将来の機能アップデートのための堅牢な基盤となっています。さらに、このアプリは完全にオープンソースであり、許容されるライセンスであるため、あなた自身でも構築することができます!詳細については、https://github.com/huggingface/swift-coreml-diffusers でGitHubリポジトリをご覧ください。

Diffusers for Macとは具体的には何ですか?

Diffusersアプリ(App Store、ソースコード)は、Mac版の 🧨 diffusers ライブラリの対応アプリです。このライブラリはPythonとPyTorchで書かれており、モジュラーな設計を使用して拡散モデルのトレーニングと実行を行います。多くの異なるモデルとタスクをサポートし、高度に構成可能で最適化されています。Macでも実行できます。Apple Siliconでは、PyTorchの mps アクセラレータを使用します。

では、なぜネイティブのMacアプリを実行したいのでしょうか?その理由はいくつかあります:

  • オリジナルのPyTorchモデルではなく、Core MLモデルを使用します。これは、Appleハードウェアの特定の最適化に対応する追加の最適化を可能にし、Core MLモデルはシステム内のすべての計算デバイス(CPU、GPU、ニューラルエンジン)で実行できます。PyTorchの mps デバイスはニューラルエンジンを使用できません。
  • これはMacアプリです!Appleのデザイン言語とガイドラインに従っているため、Mac上で自然に感じるようになっています。コマンドラインを使用したり、仮想環境を作成したり、依存関係を修正する必要はありません。
  • ローカルでプライベートです。オンラインサービスのためのクレジットが必要なく、長い待ち行列に並ぶ必要もありません。必要なだけ画像を生成して楽しんだり、仕事に使用したりできます。プライバシーは保証されており、プロンプトと画像はあなた自身のものであり、コンピューターを離れることはありません(共有する場合を除きます)。
  • オープンソースであり、Swift、Swift UI、MacおよびiOS開発の最新の言語と技術を使用しています。技術的に傾向がある場合、Xcodeを使用してコードを自由に拡張することができます。また、あなたの貢献も歓迎します!

パフォーマンスベンチマーク

TL;DR: コンピューターによっては、Diffusers 1.1でテキストから画像生成が最大で2倍速くなることがあります。⚡️

最適なパフォーマンスを発揮するために、いくつかのMacで多くのテストを行いました。一部のコンピュータでは、GPUを使用するのが最適であり、他のコンピュータではニューラルエンジンまたはANEを使用する方が良い結果が得られます。

ベンチマークをご覧ください。すべての組み合わせは、GPUまたはANEに加えてCPUを使用します。

メモリの量はパフォーマンスに大きな影響を与えないようですが、CPUとGPUのコア数が重要です。例えば、M1 Maxラップトップでは、GPUを使用した生成がANEを使用した場合よりもはるかに高速です。それは、同じ数のニューラルエンジンコアと比較して、GPUコアの数が4倍(CPUパフォーマンスコアも2倍)もあるためです。逆に、Mac Miniに搭載されている標準のM1プロセッサは、ANEを使用するとGPUを使用する場合よりも2倍速くなります。興味深いことに、GPUとANEアクセラレータを同時に使用することもテストしましたが、それらのどちらか一方だけを使用した場合に比べてパフォーマンスが向上しないことがわかりました。カットポイントは、現時点ではM1 Proチップ(8つのパフォーマンスコア、14または16のGPUコア)のハードウェア特性の周辺にあるようですが、現在はアクセスできません。

🧨Diffusersバージョン1.1は、アプリが実行されるコンピュータに基づいて最適なアクセラレータを自動的に選択します。一部のデバイス構成(「Pro」バリアントなど)は、私たちが知っているどのクラウドサービスでも提供されていないため、彼らに対するヒューリスティクスを改善することができます。私たちのアプリの使いやすさを向上させるためのデータ収集に協力していただける場合は、お読みください!

ベンチマークデータのコミュニティ呼びかけ

私たちはMacデバイス上でより包括的なパフォーマンスベンチマークを実行することに興味があります。もしお手伝いいただける場合は、このGitHubのイシューを作成し、結果を投稿していただけます。私たちはそれらを使用して、アプリの次のバージョンでパフォーマンスを最適化します。特にM1 Pro、M2 Pro、およびM2 Maxのアーキテクチャに興味があります 🤗

バージョン1.1のその他の改善点

パフォーマンスの最適化といくつかのバグ修正に加えて、私たちはUIをできるだけシンプルで清潔に保つために、新機能の追加に重点を置いています。それらのほとんどは明らかです(ガイダンススケール、安全チェッカーのオプションでの無効化、ジェネレーションのキャンセルの許可)。私たちのお気に入りはモデルのダウンロードインジケータと、前のジェネレーションからシードを再利用してジェネレーションパラメータを調整するショートカットです。

バージョン1.1には、さまざまなジェネレーション設定の詳細情報も含まれています。私たちは🧨MacのDiffusersを、技術者だけでなく、すべてのMacユーザが画像生成にアクセスしやすくすることを目指しています。

次のステップ

私たちはAppleエコシステムでの画像生成にはまだ十分なポテンシャルがあると考えています。将来のアップデートでは、以下に焦点を当てたいと考えています:

  • Hubから追加のモデルへの簡単なアクセス。アプリ内でDreamboothまたはファインチューニングされたモデルをMacのような方法で実行できます。
  • iOSおよびiPadOS向けのバージョンをリリースします。

私たちは検討中のアイデアがさらにたくさんあります。もしご自身のアイデアをご提案いただきたい場合は、私たちのGitHubリポジトリでお気軽にどうぞ。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...

人工知能

キャルレールの最高製品責任者、ライアン・ジョンソンへのインタビューシリーズ

ライアンは、初期のスタートアップからフォーチュン100の組織まで、多様なテクノロジーと製品開発のリーダーシップ経験を15年...

人工知能

「15Rockの共同創業者兼CEO、ガウタム・バクシ氏によるインタビューシリーズ」

「ガウタム・バクシは、気候リスク管理とアドバイザリーサービスのグローバルリーダーである15Rockの共同創設者兼CEOですガウ...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...