「GoogleとMITの研究者がStableRepを紹介:合成イメージによるAIトレーニングで機械学習を革新する」

『GoogleとMITの研究者がStableRepを紹介 合成イメージによるAIトレーニングで機械学習を革新』

研究者たちは、テキストから画像への変換モデルによって生成される合成画像の潜在能力を探ることで、視覚的な表現を学び、より効率的でバイアスの少ない機械学習の道を開拓しています。MITの研究者によるこの新しい研究では、Stable Diffusionに焦点を当て、合成画像上で自己教師ありの手法を訓練することで、生成モデルが適切に設定されている場合には、実際の画像と同等またはそれ以上の性能を発揮することを示しています。提案された手法であるStableRepは、同じテキストのプロンプトから生成される複数の画像を互いに正として扱うマルチポジティブな対比学習手法を導入しています。StableRepは完全に合成画像のみで訓練され、大規模データセットではSimCLRやCLIPなどの最先端の手法を上回り、言語の指導と組み合わせた場合には5000万枚の実際の画像で訓練されたCLIPよりも優れた精度を達成します。

提案されたStableRepアプローチは、キャプション内の不変性を促進する表現学習の新しい方法を導入しています。同じテキストのプロンプトから生成される複数の画像を互いに正として扱うことで、StableRepはマルチポジティブな対比損失を使用します。その結果、StableRepはSimCLRやCLIPなどの他の自己教師あり手法を上回るImageNet上で顕著な線形精度を達成します。この手法の成功は、Stable Diffusionとテキストプロンプトといった要素を活用し、合成データのサンプリングに対してより大きな制御を行う能力に起因しています。また、生成モデルは訓練データを超えて一般化する可能性を持ち、実際のデータのみに比べてより豊かな合成訓練セットを提供します。

まとめると、この研究はStable Diffusionによって生成された合成画像上で自己教師あり手法を訓練することの驚くべき効果を示しています。StableRepアプローチは、マルチポジティブな対比学習手法を備えることにより、実際の画像を使用した最先端の手法に比べて表現学習における優れた性能を示しています。この研究は、大規模かつ多様なデータセットの取得に対する費用効果の高い代替手法として、テキストから画像を生成する手法によるデータ収集の簡素化の可能性を提示しています。ただし、合成データにおける意味の不一致やバイアスの課題には取り組む必要があり、未整理のウェブデータを訓練に使用することの潜在的な影響も考慮する必要があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

実験、モデルのトレーニングおよび評価:AWS SageMakerを使用して6つの主要なMLOpsの質問を探求する

今回の記事は、'31の質問がフォーチュン500のML戦略を形作る' AWS SageMakerシリーズの一部です以前のブログ投稿「データの入...

コンピュータサイエンス

AIが使われて新しいビートルズの最後の曲が作成された、ポール・マッカートニー氏が語る

ミュージシャンは、古いデモからジョン・レノンの声を「抽出」し、数十年前の曲を完成させるためにテクノロジーを使用したと...

AI研究

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つ...

機械学習

テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな...

機械学習

未来を点火する:TensorRT-LLMのリリースにより、AI推論のパフォーマンスが向上し、RTXを搭載したWindows 11 PCで新しいモデルのサポートが追加されました

Windows 11 PC上の人工知能は、ゲーマーやクリエイター、ストリーマー、オフィスワーカー、学生、そしてカジュアルなPCユーザ...

機械学習

プールに飛び込む:CNNプーリングレイヤーの魔法を解き明かす

「畳み込みニューラルネットワークにおけるMax、Average、およびGlobal Poolingの初心者ガイド」