ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します

ワシントン大学とAI2の研究者が、TIFAという自動評価指標でAIが生成した画像の忠実度を測定する方法を紹介します

テキストから画像を生成するモデルは、人工知能の進歩の最も良い例の一つです。研究者たちの持続的な進歩と努力により、これらのモデルは長い道のりを歩んできました。テキストから画像を生成するモデルの大幅な進歩があるにもかかわらず、これらのシステムは通常、提供された書かれた説明と正確に一致する画像を生成することができません。既存のモデルでは、画像内の複数のアイテムを正しく組み合わせるための支援、適切なオブジェクトに特性を割り当てるための支援、および視覚的なテキストの生成が必要です。

研究者たちは、生成モデルがこれらの困難を処理する能力を向上させるために、言語構造を導入して画像の作成を指示することを試みてきました。CLIPScoreなどの手法では、作成された画像がテキスト入力とどれだけ似ているかを評価するためにCLIP埋め込みを使用しますが、事物を正確にカウントしたり合成的に推論する能力に制約があるため、信頼性のあるメトリックではありません。画像のキャプションを使用する方法もありますが、画像がテキストで説明され、元の入力と比較されます。しかし、このアプローチでは、ラベリングモデルが画像の重要な側面を見落としたり、無関係な領域に集中したりする可能性があるため、不十分です。

これらの問題を解決するために、ワシントン大学とAI2の研究者チームは、TIFA(Text-to-Image Faithfulness evaluation with Question Answering)を導入しました。TIFAは、視覚的な質問応答(VQA)を利用して、画像が関連するテキスト入力とどれだけ一致するかを判断するための自動評価メトリックです。チームは、言語モデルを使用して与えられたテキスト入力からさまざまな質問と回答のペアを生成しました。作成された画像を使用してよく知られたVQAモデルがこれらのクエリに正しく応答できるかどうかを調べることにより、画像の信憑性を評価することができます。

TIFAは、出力画像の品質の徹底的かつ簡単な評価を可能にする無参照メトリックとして際立っています。他の評価メトリックと比較して、TIFAは人間の判断とより強い関連性を示しました。この手法を基礎として、チームはTIFA v1.0も発表しており、これには4Kのテキスト入力と12の異なるカテゴリ(オブジェクトやカウントなど)に分割された合計25Kの質問が含まれています。TIFA v1.0を使用して、既存のテキストから画像へのモデルを包括的に評価し、現在の問題と困難を明らかにしました。

色や材料の表現などの面で優れているにもかかわらず、TIFA v1.0を使用したテストでは、現代のテキストから画像へのモデルは、空間関係や複数のオブジェクトを正確に描写することにまだ問題があります。研究チームは、彼らのベンチマークを導入することで、テキストから画像への合成の分野での進歩を評価するための正確な基準の構築を目指しています。彼らは貴重な洞察を提供することにより、指摘された制約を克服し、この技術のさらなる発展を促進するためのすべての将来の研究を導くことを望んでいます。

結論として、TIFAは画像とテキストの整合性を測定するための優れた手法であり、まずLLMによって質問のリストを生成し、次に画像に対して視覚的な質問応答を行い、正確性を計算します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIベースのサイバーセキュリティがビジネスの強靭性を高める方法」

世界の50億人以上のインターネットユーザーとおよそ540億個のデバイスが、IDCによると1秒あたり3.4ペタバイトのデータを生成...

AI研究

「UCLA研究者がGedankenNetを紹介:物理法則や思考実験から学ぶ自己教示AIモデルが計算機画像処理を進化させる」

深層学習の最近の進展は、計算画像処理、顕微鏡、ホログラフィ関連の分野に大きな影響を与えています。これらの技術は、バイ...

人工知能

AgentGPT ブラウザ内の自律型AIエージェント

あなたのAIエージェントに名前と目標を与え、割り当てられた目的を達成するのを見てください

機械学習

「AI/MLツールとフレームワーク:包括的な比較ガイド」

この記事では、主要なAI/MLツールやフレームワークの簡潔な比較を提供し、特定のAI/MLプロジェクトに適した技術の選択を支援...

AI研究

ドイツの研究チームがDeepMBを開発しました MSOTを介して高品質でリアルタイムなオプトアコースティックイメージングを提供するディープラーニングフレームワーク

医療画像処理において、高品質な画像を素早く取得することは、多波長オプトアコースティックトモグラフィー(MSOT)の臨床的...

機械学習

「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュ...