CommonCanvasをご紹介します：クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

「CommonCanvasの魅力をご紹介します：クリエイティブ・コモンズの画像を使ったトレーニングが施されたオープンな拡散モデル」

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コンテンツの作成から盲人の助けになるまで、さまざまなアプリケーションがあります。研究者たちは、高品質なデータが不足しており、インターネットからスクレイピングされたデータセットに関連する著作権の問題に直面しています。

最近の研究では、研究チームがクリエイティブ・コモンズ（CC）ライセンスの下に画像データセットを構築し、それを使ってStable Diffusion 2（SD2）を上回るオープンな拡散モデルを訓練するというアイデアを提案しました。これには、以下の2つの主な障壁が克服される必要があります。

キャプションのないデータの不在：高解像度のCC写真はオープンライセンスですが、しばしばテキストから画像を生成するためのキャプションが欠落しています。キャプションがないと、モデルはテキストの入力に基づいて視覚的な表現を理解し生成することが困難です。

CC写真の不足：LAIONなどの大規模な固有データセットと比較して、CC写真はより少なく、重要なリソースであるにもかかわらず、その不足により高品質なモデルを訓練するための十分なデータがあるかどうかという疑問が生じます。

チームは、転移学習の技術を使用し、事前に訓練されたモデルを用いて優れた合成キャプションを作成し、それらを注意深く選ばれたCC写真とマッチさせました。この方法はシンプルで、モデルが写真や他の入力からテキストを生成する能力を利用しています。これにより、言葉を視覚的な表現に変換するための生成モデルを訓練するために、写真と作り上げたキャプションのデータセットが編集されました。

チームは、2つ目の課題に取り組むために、コンピューティングとデータの効率を兼ね備えたトレーニングレシピを作成しました。このため、より少ないデータで現行のSD2モデルと同じ品質を目指しています。SD2をトレーニングするために最初に使用されたデータの約3%、およそ7,000万の例が必要です。これは、高品質なモデルを効率的にトレーニングするために十分なCC写真が利用可能であることを示しています。

チームは、データと効果的なトレーニング手順を使用して、複数のテキストから画像へのモデルを訓練しました。これらのモデルはCommonCanvasファミリーと呼ばれ、生成モデルの分野において重要な進歩を示しています。品質においてはSD2に匹敵する視覚的な出力を生成することができます。

CommonCanvasファミリーの最大のモデルは、LAIONデータセットの3%未満のCCデータセットで訓練され、人間の評価でSD2と比較して同等の性能を得ています。データセットのサイズの制約や人工的なキャプションの使用にもかかわらず、この手法は高品質な結果を生成する上で効果的です。

チームは、主な貢献を以下のようにまとめています。

チームは、最初はキャプションのないクリエイティブ・コモンズ（CC）写真に優れたキャプションを生成するために電話を使用した転移学習の方法を使用しました。

彼らはCommonCatalogと呼ばれるデータセットを提供しました。これにはオープンなライセンスの下でリリースされた約7,000万枚のCC写真が含まれています。

CommonCatalogデータセットは、一連のLatent Diffusion Models（LDM）を訓練するために使用されます。これらのモデルはCommonCanvasと呼ばれ、SD2-baseベースラインと比較して、質的および量的に競争力があります。

この研究では、SD2-baseモデルのトレーニングをほぼ3倍高速化するため、いくつかのトレーニング最適化を適用しています。

チームは、GitHubでトレーニングされたCommonCanvasモデル、CC写真、人工的なキャプション、そしてCommonCatalogデータセットを無料で利用できるようにし、協力とさらなる研究を促しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceDeep learningEditors PickMachine learning

Was this article helpful?

93 out of 132 found this helpful

CommonCanvasをご紹介します：クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

Was this article helpful?

「2024年に注目すべきトップ10のソフトウェアアウトソーシング企業」

「アデプトは、冬ゲームでマルチモーダルを変えました」

機械学習

「2023年の最高のAIアバタージェネレーター10選」

「Ego-Exo4Dを紹介：ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

コードのための大規模な言語モデルの構築とトレーニング：StarCoderへの深い探求

「React JSでChatGPT 2.0を構築する」

「全てのOECDおよびG20加盟国において、インドがAIスキルと人材で1位にランクされました」

イスラエルの秘密エージェントが強力な生成AIで脅威と戦う方法