CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

「CommonCanvasの魅力をご紹介します:クリエイティブ・コモンズの画像を使ったトレーニングが施されたオープンな拡散モデル」

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コンテンツの作成から盲人の助けになるまで、さまざまなアプリケーションがあります。研究者たちは、高品質なデータが不足しており、インターネットからスクレイピングされたデータセットに関連する著作権の問題に直面しています。

最近の研究では、研究チームがクリエイティブ・コモンズ(CC)ライセンスの下に画像データセットを構築し、それを使ってStable Diffusion 2(SD2)を上回るオープンな拡散モデルを訓練するというアイデアを提案しました。これには、以下の2つの主な障壁が克服される必要があります。

  1. キャプションのないデータの不在:高解像度のCC写真はオープンライセンスですが、しばしばテキストから画像を生成するためのキャプションが欠落しています。キャプションがないと、モデルはテキストの入力に基づいて視覚的な表現を理解し生成することが困難です。
  1. CC写真の不足:LAIONなどの大規模な固有データセットと比較して、CC写真はより少なく、重要なリソースであるにもかかわらず、その不足により高品質なモデルを訓練するための十分なデータがあるかどうかという疑問が生じます。

チームは、転移学習の技術を使用し、事前に訓練されたモデルを用いて優れた合成キャプションを作成し、それらを注意深く選ばれたCC写真とマッチさせました。この方法はシンプルで、モデルが写真や他の入力からテキストを生成する能力を利用しています。これにより、言葉を視覚的な表現に変換するための生成モデルを訓練するために、写真と作り上げたキャプションのデータセットが編集されました。

チームは、2つ目の課題に取り組むために、コンピューティングとデータの効率を兼ね備えたトレーニングレシピを作成しました。このため、より少ないデータで現行のSD2モデルと同じ品質を目指しています。SD2をトレーニングするために最初に使用されたデータの約3%、およそ7,000万の例が必要です。これは、高品質なモデルを効率的にトレーニングするために十分なCC写真が利用可能であることを示しています。

チームは、データと効果的なトレーニング手順を使用して、複数のテキストから画像へのモデルを訓練しました。これらのモデルはCommonCanvasファミリーと呼ばれ、生成モデルの分野において重要な進歩を示しています。品質においてはSD2に匹敵する視覚的な出力を生成することができます。

CommonCanvasファミリーの最大のモデルは、LAIONデータセットの3%未満のCCデータセットで訓練され、人間の評価でSD2と比較して同等の性能を得ています。データセットのサイズの制約や人工的なキャプションの使用にもかかわらず、この手法は高品質な結果を生成する上で効果的です。

チームは、主な貢献を以下のようにまとめています。

  1. チームは、最初はキャプションのないクリエイティブ・コモンズ(CC)写真に優れたキャプションを生成するために電話を使用した転移学習の方法を使用しました。
  1. 彼らはCommonCatalogと呼ばれるデータセットを提供しました。これにはオープンなライセンスの下でリリースされた約7,000万枚のCC写真が含まれています。
  1. CommonCatalogデータセットは、一連のLatent Diffusion Models(LDM)を訓練するために使用されます。これらのモデルはCommonCanvasと呼ばれ、SD2-baseベースラインと比較して、質的および量的に競争力があります。
  1. この研究では、SD2-baseモデルのトレーニングをほぼ3倍高速化するため、いくつかのトレーニング最適化を適用しています。
  1. チームは、GitHubでトレーニングされたCommonCanvasモデル、CC写真、人工的なキャプション、そしてCommonCatalogデータセットを無料で利用できるようにし、協力とさらなる研究を促しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

効率的な開発者ですか?それならAIがあなたの仕事を狙っています

開発における人間とAIの利点は、効果と効率の一致によるものです前者は曖昧で主観的ですが、後者は議論の余地がなくデータに...

AIニュース

検索における生成AIが120以上の新しい国と地域に拡大します

「Generative AI in Search」または「Search Generative Experience(SGE)」は、世界中で拡大し、4つの新しい言語が追加され...

機械学習

デシAIは、DeciDiffusion 1.0を公開しました:820億パラメータのテキストから画像への潜在的拡散モデルで、安定した拡散と比べて3倍の速度です

問題の定義 テキストから画像を生成することは、人工知能において長い間の課題でした。テキストの説明を鮮明でリアルな画像に...

機械学習

Learning to build—Towards AI コミュニティニュースレター第1号

私たちは最新のニュースレターをお知らせすることをとても楽しみにしています!それは私たちの共同体についてのすべてですコ...

機械学習

話すロボット:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します

Google DeepMindは、ロボット技術の向上のために新しいビジョン・言語・アクションモデルを紹介します

コンピュータサイエンス

言葉の解明:AIによる詩と文学の進化' (Kotoba no kaimei AI ni yoru shi to bungaku no shinka)

イントロダクション 人工知能の時代において、創作活動は変革の時を迎えています。アルゴリズムが感情を呼び起こす詩や物語を...