JourneyDBとは:多様かつ高品質な生成画像が400万枚収録された大規模データセットであり、マルチモーダルな視覚理解のためにキュレーションされています

JourneyDBは、400万枚の生成画像を収録した大規模なデータセットであり、マルチモーダルな視覚理解のためにキュレーションされています

ChatGPTやDALL-Eなどの大規模な言語モデルの進化と、生成型人工知能の人気の上昇により、人間のようにコンテンツを生成することはもはや夢ではありません。質問応答、コードの補完、テキストの説明からのコンテンツの生成、テキストと画像の両方からの画像の作成など、すべてが実現可能になりました。最近、AIは人間の創造力に匹敵するまでになりました。OpenAIが開発した有名なチャットボットであるChatGPTは、GPT 3.5のトランスフォーマーアーキテクチャを基にしており、ほとんどの人に使用されています。最新バージョンのGPT、つまりGPT 4は、以前のバージョンであるGPT 3.5とは異なり、マルチモーダルな性質を持っています。ChatGPTは、テキストの入力のみを受け付けることができます。

拡散モデルの開発により、生成コンテンツの品質は大幅に向上しました。これらの進歩により、DALLE、Stability AI、Runway、MidjourneyなどのAI生成コンテンツ(AIGC)プラットフォームがますます人気を集めています。これらのシステムは、自然言語で提供されるテキストプロンプトに基づいて高品質の画像を作成することができます。マルチモーダルな理解の進歩にもかかわらず、ビジョン言語モデルはまだ生成された視覚的なものを理解するのに苦労しています。実際のデータに比べて、合成画像はより大きな内容とスタイルの変動性を示し、モデルが適切にそれらを理解することははるかに困難です。

これらの問題に対処するため、研究者のチームはジャーニーDBという大規模なデータセットを導入しました。このデータセットは、生成画像のマルチモーダルな視覚理解のために特別に作成された400万以上のユニークな高品質な生成写真を含んでいます。このデータセットは、コンテンツとスタイルの解釈の両方に焦点を当て、生成された画像の理解能力を訓練および評価するための完全なリソースを提供することを目指しています。

提案されたベンチマークに含まれる4つのタスクは以下の通りです。

  1. プロンプトの反転 – プロンプトの反転は、ユーザーが画像を生成するために使用したテキストプロンプトを見つけるために使用されます。これにより、モデルの生成画像の内容とスタイルの理解がテストされます。
  1. スタイルの検索 – チームはスタイルの検索に焦点を当て、モデルがスタイル属性に基づいて似たような生成画像を識別して取得することを目指しています。これにより、モデルが生成画像内のスタイルの微妙なニュアンスを識別する能力が評価されます。
  1. 画像キャプション – 画像キャプションでは、モデルに対して生成画像の内容を正確に表現する記述的なキャプションを生成するように指示されます。これにより、モデルのビジュアルコンテンツを効果的に自然言語で理解および表現する能力が評価されます。
  1. ビジュアル質問応答 – ビジュアル質問応答(VQA)を通じて、モデルは生成画像に関連する質問に正確に答えることができます。モデルはビジュアルおよびスタイルのコンテンツを理解し、与えられた質問に基づいて関連する回答を提供することができます。

チームは4,692,751の画像とテキストのプロンプトのペアを収集し、トレーニングセット、バリデーションセット、テストセットに分割しました。チームはベンチマークデータセットを使用して、幅広い実験を行いました。その結果、現在の最先端のマルチモーダルモデルは、実際のデータセットと同じくらいうまく機能しないことがわかりましたが、提案されたデータセットに対するいくつかの調整により、性能が大幅に向上しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more