XGen-Image-1の内部:Salesforce Researchが巨大なテキストから画像へのモデルを構築、トレーニング、評価する方法

XGen-Image-1の内部:Salesforce Researchがテキストから画像へのモデルを構築、トレーニング、評価する方法

テキストから画像へのモデルの最も効率的なトレーニングプロセスの一つ。

画像クレジット:Salesforce Research

私は最近、AIに特化した教育ニュースレターを始めました。既に16万人以上の購読者がいます。TheSequenceは、5分で読めるノン・ヒュープ(つまり、誇大宣伝やニュースなどはなし)の機械学習指向のニュースレターです。このニュースレターでは、機械学習プロジェクト、研究論文、概念について最新情報を提供します。ぜひ以下の購読ボタンから試してみてください:

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新動向を追い続けるための最良の情報源

thesequence.substack.com

Salesforceは、新しい基盤モデルの波において最も活発な研究所の一つです。最近、Salesforce Researchは、言語、コーディング、コンピュータビジョンなど、さまざまなドメインでモデルをリリースしています。最近、彼らはXGen-Image-1という大規模なテキストから画像へのモデルを公開し、さまざまなコンピュータビジョンのタスクで最先端のパフォーマンスを示しました。Salesforce Researchは、XGen-Image-1のトレーニング方法とベストプラクティスについて詳細な情報を提供しました。今日は、それらの詳細の一部について詳しく説明します。XGen-Image-1の構築プロセスでは、戦略的な設計の選択肢やトレーニング方法論、初期の画像生成モデルに関するパフォーマンスメトリクスなど、非常に難しい決定の連続が行われました。

  • モデルのトレーニング:アーキテクチャの観点から見ると、XGen-Image-1は8億6000万のパラメータを持つ潜在的な拡散モデルです。Salesforce Researchは、トレーニングにおいて、1.1億の公開データセットであるLAIONのテキスト-画像ペアを活用しました。• 解像度の管理: XGen-Image-1は、利用可能なピクセルアップサンプラーを備えた潜在的な変数オートエンコーダ(VAE)を使用し、低解像度でのトレーニングを効果的に行い、計算コストを低減しました。• コスト効率: テキストから画像へのモデルのトレーニングにおいては、常にコストが懸念されます。XGen-Image-1の場合、Salesforce Researchは、GoogleのTPUスタックを使用して、約7.5万ドルの控えめな投資で競争力のある画像生成モデルを育成できることを確立しました。• パフォーマンスの均等性: XGen-Image-1は、画像生成の優れたモデルの先駆者であるStable Diffusion 1.5および2.1と同等のパフォーマンスを示しました。• 自動的な改善: 特定の領域における自動的な改善の形で注目すべき側面が浮かび上がりました。たとえば、「顔」のような領域は改善が行われ、生成された画像が効果的に向上しました。• 推論の向上: 推論中に拒否サンプリングを統合することで、結果の品質が大幅に向上し、緻密な方法論の拡張の力を証明しました。
画像クレジット:Salesforce Research

トレーニング

ほとんどのテキストから画像へのモデルは、独自のトレーニング方法論を開拓してきました。XGen-Image-1は、条件付け、エンコーディング、アップサンプリングの単純な課題ではなく、再利用性の範囲に焦点を当て、効率的なトレーニングの限界を探求することに重点を置いています。この独自の視点により、事前学習されたオートエンコーダとオプションのピクセルベースのアップサンプラを組み合わせることで、低解像度の生成が可能になり、壮大な画像(1024×1024)が生成されます。彼らの展望は、解像度の実用的な下限のさらなる探求にも及びます。定量的な評価は、アップサンプリングを行わないVAEフェーズの直後の256×256の時点で行われます。定性的な評価は、SDXLの「Refiner」と同様に256から64から256への「再アップサンプラ」を使用し、256から1024へのアップサンプラを使用します。

画像クレジット:Salesforce Research

トレーニングインフラストラクチャ

Salesforce ResearchはTPU v4を使用してモデルのトレーニングを行いました。トレーニングプロセス全体で、モデルのチェックポイントを保持するためにGoogle Cloud Storage(GCS)を利用しました。さらに、巨大なデータセットを保存するためにGloudマウントドライブを利用しました。トレーニングはv4–512 TPUマシン上で行われ、約9日間にわたって約110万ステップが実行されました。ハードウェアのコストは約73,000ドルであり、他の代替手段と比較して非常に安価です!

このプロセスは課題もありました。モデルの損失は、寛大なバッチサイズにもかかわらず、ステップごとに乱れた変動を示しました。その原因は、すべてのワーカーに対して一様なシードが行われたことによるもので、この変動性が生じました。解決策は、ランダムなシードを各ワーカーのランクに合わせて行い、ノイズステップが均等に分散し、より滑らかな損失曲線が得られるようにすることで実現しました。

画像クレジット:Salesforce Research

評価

XGen-Image-1の評価には、CLIPスコア(プロンプトへの適合性を表すもの)をx軸に、データセット全体の外観の類似性を示すFID(Fréchet Inception Distance)をy軸に持つ二軸表現の手法が使用されました。この評価は15のガイダンススケールで行われ、初期の図では30,000の画像-プロンプトペアが関与しました。チェックポイント間の比較では、この範囲が1,000ペアに狭まります。データペアはCOCO Captionsデータセットから厳密にサンプリングされ、キャプションには「A photograph of」が追加され、異なるグラフィックスタイルに関連するFIDペナルティを軽減しました。

画像クレジット:Salesforce Research

Salesforce Researchはまた、XGen-Image-1をベンチマークするために人間の評価も使用しました。この評価はAmazon Mechanical Turkを通じて行われ、参加者には画像とプロンプトの適合性を判断するよう求められました。精度に対する固い信念を持って、回答者は6つの異なるトライアルで1,632のプロンプトすべてに関与し、比較ごとに約10,000の回答を得る大規模なリポジトリを作成しました。

画像クレジット:Salesforce Research

高品質な画像の生成

XGen-Image-1の構築の重要な部分は、高品質な画像を生成することです。このプロセスは2つのよく知られたトリックに基づいて行われました。最初の戦略は、多数の画像を生成し、最適なものを選び出すことでした。Salesforce Researchは、1つのプロンプトに対して1つの出力構造を維持するという原則を守りながら、この方法論を自動化することに取り組みました。このアプローチの探索により、複数の画像の生成と最適な候補の自動選択を含む拒否サンプリングという手法に至りました。最初は美的スコアやCLIPスコアなど、さまざまなメトリックが検討されましたが、最終的にはPickScoreが堅牢な総合メトリックであることが分かりました。このメトリックは、文献で裏付けられたように、人間の好みと驚くほど一致することが示されました。この方法論に従って、XGen-Image-1はA100 GPU上で約5秒で32枚の画像(4×8グリッド)を生成し、最も高いスコアの画像を選択します。

画像クレジット:Salesforce Research

2つ目のテクニックは、最適でない外観を持つ領域の埋め込みによる画像の改善の模範として実現しました。

  1. プロンプトから抽出されたセグメンテーションマスクが対象オブジェクトを囲みます。2. セグメンテーションマスクに基づいてオブジェクトを適切に切り抜きます。3. 切り抜いた領域を拡張します。4. セグメンテーションプロンプトと一致するキャプション(例:「顔の写真」)との間でimg2img操作を行い、領域の微調整を容易にします。5. セグメンテーションマスクは、拡張された切り抜き領域を元の画像にシームレスにブレンドする際に重要な役割を果たします。これらの方法の組み合わせにより、XGen-Image-1で高品質な画像が生成されます。
画像クレジット:Salesforce Research

XGen-Image-1は、テキストから画像を生成するモデルにおいて画期的なものではありませんが、非常に有用な貢献を提供しています。最も大きなものは、このタイプのモデルで最先端のパフォーマンスを達成するために、多くの事前学習済みのコンポーネントを再利用できることを示すことです。X-Gen-Image-1は、トレーニングの計算リソースの一部しか使用せずに、StableDiffusionと同等のパフォーマンスを達成しました。非常に印象的です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AI研究

CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています

世界中で、約8人に1人が精神の問題を抱えています。しかし、精神保健障害は、心の専門家の不足、劣悪な治療法、高額な費用、...

データサイエンス

7月号 データサイエンティストのための気候リソース

多くの人にとって、夏の訪れは以前は単純な興奮の原因でした:学校が終わる、仕事のスケジュールは少し忙しくないことが多い...

データサイエンス

GOAT-7B-Communityモデルをご紹介します:GoatChatアプリから収集されたデータセットでLLaMA-2 7Bモデルを微調整したAIモデルです

最近、AI研究所の科学者たちは、GoatChatアプリのデータを使用して、LLaMA-2 7Bモデルを洗練させたGOAT-7B-Communityモデルを...

機械学習

「50以上の最新の最先端人工知能(AI)ツール(2023年11月)」

AIツールは急速に開発が進んでおり、定期的に新しいツールが導入されています。以下にいくつかのAIツールを紹介します。これ...

機械学習

3Dで「ウォーリーを探せ」をプレイする:OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです

画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオ...

機械学習

新しいAIメソッド、StyleAvatar3Dによるスタイル化された3Dアバターの生成画像テキスト拡散モデルとGANベースの3D生成ネットワークを使用

大規模な画像とテキストのペアリング、拡散モデルなどの洗練された生成モデルの進化により、生成モデルは高品質な2D画像を生...