CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル
「CommonCanvasの魅力をご紹介します:クリエイティブ・コモンズの画像を使ったトレーニングが施されたオープンな拡散モデル」
人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コンテンツの作成から盲人の助けになるまで、さまざまなアプリケーションがあります。研究者たちは、高品質なデータが不足しており、インターネットからスクレイピングされたデータセットに関連する著作権の問題に直面しています。
最近の研究では、研究チームがクリエイティブ・コモンズ(CC)ライセンスの下に画像データセットを構築し、それを使ってStable Diffusion 2(SD2)を上回るオープンな拡散モデルを訓練するというアイデアを提案しました。これには、以下の2つの主な障壁が克服される必要があります。
- キャプションのないデータの不在:高解像度のCC写真はオープンライセンスですが、しばしばテキストから画像を生成するためのキャプションが欠落しています。キャプションがないと、モデルはテキストの入力に基づいて視覚的な表現を理解し生成することが困難です。
- CC写真の不足:LAIONなどの大規模な固有データセットと比較して、CC写真はより少なく、重要なリソースであるにもかかわらず、その不足により高品質なモデルを訓練するための十分なデータがあるかどうかという疑問が生じます。
チームは、転移学習の技術を使用し、事前に訓練されたモデルを用いて優れた合成キャプションを作成し、それらを注意深く選ばれたCC写真とマッチさせました。この方法はシンプルで、モデルが写真や他の入力からテキストを生成する能力を利用しています。これにより、言葉を視覚的な表現に変換するための生成モデルを訓練するために、写真と作り上げたキャプションのデータセットが編集されました。
- 「ワンダー3Dに会おう:単一視点画像から高品質のテクスチャメッシュを効率的に生成する革新的な人工知能手法」
- ジナAIは、「jina-embeddings-v2」を紹介します 世界初の8kオープンソースのテキスト埋め込みモデル
- チューリングのミル:AIスーパーコンピューターが英国の経済エンジンを加速
チームは、2つ目の課題に取り組むために、コンピューティングとデータの効率を兼ね備えたトレーニングレシピを作成しました。このため、より少ないデータで現行のSD2モデルと同じ品質を目指しています。SD2をトレーニングするために最初に使用されたデータの約3%、およそ7,000万の例が必要です。これは、高品質なモデルを効率的にトレーニングするために十分なCC写真が利用可能であることを示しています。
チームは、データと効果的なトレーニング手順を使用して、複数のテキストから画像へのモデルを訓練しました。これらのモデルはCommonCanvasファミリーと呼ばれ、生成モデルの分野において重要な進歩を示しています。品質においてはSD2に匹敵する視覚的な出力を生成することができます。
CommonCanvasファミリーの最大のモデルは、LAIONデータセットの3%未満のCCデータセットで訓練され、人間の評価でSD2と比較して同等の性能を得ています。データセットのサイズの制約や人工的なキャプションの使用にもかかわらず、この手法は高品質な結果を生成する上で効果的です。
チームは、主な貢献を以下のようにまとめています。
- チームは、最初はキャプションのないクリエイティブ・コモンズ(CC)写真に優れたキャプションを生成するために電話を使用した転移学習の方法を使用しました。
- 彼らはCommonCatalogと呼ばれるデータセットを提供しました。これにはオープンなライセンスの下でリリースされた約7,000万枚のCC写真が含まれています。
- CommonCatalogデータセットは、一連のLatent Diffusion Models(LDM)を訓練するために使用されます。これらのモデルはCommonCanvasと呼ばれ、SD2-baseベースラインと比較して、質的および量的に競争力があります。
- この研究では、SD2-baseモデルのトレーニングをほぼ3倍高速化するため、いくつかのトレーニング最適化を適用しています。
- チームは、GitHubでトレーニングされたCommonCanvasモデル、CC写真、人工的なキャプション、そしてCommonCatalogデータセットを無料で利用できるようにし、協力とさらなる研究を促しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「言語の力を解き放つ:NVIDIAのアナマライ・チョッカリンガムがLLMの台頭について語る」
- 「コルーチンの実行のマスタリング:UnityにおけるYield、Flow、そして実用例」となります
- 「小規模言語モデルにおける意図の調整の解除:Zephyr-7Bの突破を目指した、蒸留された教師あり微調整とAIフィードバックの包括的ガイド」
- ショッピファイの製品推奨アプリに生成AIを導入する
- 「Javaを使用した脳コンピュータインターフェース(BCI)アプリケーションの開発:開発者のためのガイド」
- 出生前診断の革命:PAICSディープラーニングシステムが神経超音波画像から胎児の頭蓋内奇形の検出を強化する方法をご覧ください
- 「機械学習における10種類のクラスタリングアルゴリズム」