「OpenAIの研究者たちは、敵対的なトレーニングを行わずに高品質なデータサンプリングのための先進的なコンシステンシーモデルを開拓しました」

『OpenAIの研究者たちが開拓した先進的なコンシステンシーモデル：高品質なデータサンプリングを敵対的トレーニングなしで実現』

一貫性モデルは、敵対的なトレーニングに頼らずに、単一のステップで高品質のデータを生成するために設計された生成モデルのカテゴリを表します。これらのモデルは、事前にトレーニングされた拡散モデルから学習し、LPIPS（学習パーセプチュアルイメージパッチ類似性）などのメトリックを利用することで、最適なサンプルの品質を達成します。蒸留を使用した場合、一貫性モデルの品質は事前にトレーニングされた拡散モデルに制限されます。さらに、LPIPSの適用により、評価プロセスに不要なバイアスが導入されます。

一貫性モデルは、スコアベースの拡散モデルと比較して、高品質のサンプルを生成するために多数のサンプリングステップを必要としません。それは、計算パワーをマルチステップのサンプリングに対してトレードオフする能力など、拡散モデルの主な利点を保持します。さらに、予備的な露出がなくデータの変更を行うためのゼロショット戦略を可能にします。

これらのモデルはLPIPSと蒸留を使用し、既にトレーニングされた拡散モデルから知識を取り除く過程です。欠点があります：LPIPSの組み込みにより、一貫性モデルの品質と元の拡散モデルの品質の間に関連性を確立する蒸留が行われます。

オープンAI研究チームの「一貫性モデルのトレーニング技術」の報告では、一貫性モデルが直接データから学習するための革新的な手法が紹介されています。これらの手法は、LPIPSに関連する制約を緩和しながら、高品質のサンプルを生成するための一貫性蒸留（CD）の性能を上回ります。

一貫性蒸留（CD）と一貫性トレーニングは、従来から一貫性モデル（CT）をトレーニングするために主に使用されてきた方法です。以前の研究では、CDがCTよりも優れたパフォーマンスを示す傾向にあります。しかし、CDは一貫性モデルが達成できるサンプルの品質を制限するため、固有の拡散モデルのトレーニングが必要です。

研究者は、対数正規乱数スケジュールを追加してモデルを一貫性的にトレーニングすることを提案しました。また、トレーニング中に総離散化ステップを定期的に増やすことも推奨されています。この研究では、CTの改善により、対照的なトレーニング（CT）が一貫性蒸留（CD）よりも優れたパフォーマンスを発揮するようになりました。重み関数、ノイズ埋め込み、およびドロップアウトの現実世界の効果についての詳細な調査も行われました。また、以前の理論的な分析で見落とされていた欠陥を特定し、教師ネットワークから指数移動平均（EMA）を排除するという簡単な解決策を提案しています。

LPIPSによって引き起こされる評価のバイアスを軽減するために、研究チームは頑健統計ドメインからの擬似ヒューバー損失を使用しました。サンプルの品質を向上させるために、より多くの離散化ステップを追加することも検討されました。チームはこれらの実現を利用して、合計離散化ステップを直感的かつ効率的に決定するためのカリキュラムを提示しています。

これらの進歩のおかげで、対照的なトレーニング（CT）は1つのサンプリングステップで驚異的なFrechet Inception Distance（FID）スコアを得ることができます。CIFAR-10およびImageNet 64×64のFIDスコアは、それぞれ2.51と3.25であり、いずれも3.5倍から4倍以上の改善を示し、一貫性蒸留（CD）よりも優れています。

CTの改善された手法は、これまでの欠点を効果的に克服し、最先端の拡散モデルや敵対的生成ネットワーク（GAN）と同等の成果を提供します。この成果は、一貫性モデルが生成モデル領域内の独立したカテゴリとしての相当なポテンシャルを持つことを強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickMachine learningStaff

Was this article helpful?

93 out of 132 found this helpful

「OpenAIの研究者たちは、敵対的なトレーニングを行わずに高品質なデータサンプリングのための先進的なコンシステンシーモデルを開拓しました」

Was this article helpful?

「GeForce NOW-vemberは50以上の新しいゲームをクラウドでストリーミングする」

「フリーノイズ」にご挨拶：複数のテキストプロンプトから最大512フレームまでの長いビデオを生成する新しい人工知能手法

データサイエンス