CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

「CommonCanvasの魅力をご紹介します:クリエイティブ・コモンズの画像を使ったトレーニングが施されたオープンな拡散モデル」

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コンテンツの作成から盲人の助けになるまで、さまざまなアプリケーションがあります。研究者たちは、高品質なデータが不足しており、インターネットからスクレイピングされたデータセットに関連する著作権の問題に直面しています。

最近の研究では、研究チームがクリエイティブ・コモンズ(CC)ライセンスの下に画像データセットを構築し、それを使ってStable Diffusion 2(SD2)を上回るオープンな拡散モデルを訓練するというアイデアを提案しました。これには、以下の2つの主な障壁が克服される必要があります。

  1. キャプションのないデータの不在:高解像度のCC写真はオープンライセンスですが、しばしばテキストから画像を生成するためのキャプションが欠落しています。キャプションがないと、モデルはテキストの入力に基づいて視覚的な表現を理解し生成することが困難です。
  1. CC写真の不足:LAIONなどの大規模な固有データセットと比較して、CC写真はより少なく、重要なリソースであるにもかかわらず、その不足により高品質なモデルを訓練するための十分なデータがあるかどうかという疑問が生じます。

チームは、転移学習の技術を使用し、事前に訓練されたモデルを用いて優れた合成キャプションを作成し、それらを注意深く選ばれたCC写真とマッチさせました。この方法はシンプルで、モデルが写真や他の入力からテキストを生成する能力を利用しています。これにより、言葉を視覚的な表現に変換するための生成モデルを訓練するために、写真と作り上げたキャプションのデータセットが編集されました。

チームは、2つ目の課題に取り組むために、コンピューティングとデータの効率を兼ね備えたトレーニングレシピを作成しました。このため、より少ないデータで現行のSD2モデルと同じ品質を目指しています。SD2をトレーニングするために最初に使用されたデータの約3%、およそ7,000万の例が必要です。これは、高品質なモデルを効率的にトレーニングするために十分なCC写真が利用可能であることを示しています。

チームは、データと効果的なトレーニング手順を使用して、複数のテキストから画像へのモデルを訓練しました。これらのモデルはCommonCanvasファミリーと呼ばれ、生成モデルの分野において重要な進歩を示しています。品質においてはSD2に匹敵する視覚的な出力を生成することができます。

CommonCanvasファミリーの最大のモデルは、LAIONデータセットの3%未満のCCデータセットで訓練され、人間の評価でSD2と比較して同等の性能を得ています。データセットのサイズの制約や人工的なキャプションの使用にもかかわらず、この手法は高品質な結果を生成する上で効果的です。

チームは、主な貢献を以下のようにまとめています。

  1. チームは、最初はキャプションのないクリエイティブ・コモンズ(CC)写真に優れたキャプションを生成するために電話を使用した転移学習の方法を使用しました。
  1. 彼らはCommonCatalogと呼ばれるデータセットを提供しました。これにはオープンなライセンスの下でリリースされた約7,000万枚のCC写真が含まれています。
  1. CommonCatalogデータセットは、一連のLatent Diffusion Models(LDM)を訓練するために使用されます。これらのモデルはCommonCanvasと呼ばれ、SD2-baseベースラインと比較して、質的および量的に競争力があります。
  1. この研究では、SD2-baseモデルのトレーニングをほぼ3倍高速化するため、いくつかのトレーニング最適化を適用しています。
  1. チームは、GitHubでトレーニングされたCommonCanvasモデル、CC写真、人工的なキャプション、そしてCommonCatalogデータセットを無料で利用できるようにし、協力とさらなる研究を促しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

HLTH 2023 AIを責任を持って医療に導入する

今年、AIについて話す人々が増えています医療の課題を解決するためには技術だけではなく、AIも必要ですが、AIこそが私たちが...

人工知能

「開発チームのためのAIツール 採用するべきか否か?」

「AIツールがより人気になるにつれて、それを導入する際のリスクと利点を知ることが重要ですCodiumAIのイタマール・フリード...

AIニュース

「AnthropicがClaude 2を発表:コーディングを革新する次世代AIチャットプログラム」

人工知能スタートアップのAnthropicは、テックジャイアントのGoogleによるバックアップを受けて、人気のあるチャットプログラ...

AIニュース

既存のLLMプロジェクトをLangChainを使用するように適応する

おめでとうございます!素晴らしいLLMの概念証明が完成しましたね自信を持って世界に披露できます!もしかしたら、OpenAIライ...

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...

AIテクノロジー

シンガポールがAIワークフォースを3倍に増やす予定

シンガポールは、人工知能の分野に目を向けています。国家AI戦略(NAIS)2.0の発表により、この都市国家は次の3〜5年でAIの労...