ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します

ワシントン大学とAI2の研究者が、TIFAという自動評価指標でAIが生成した画像の忠実度を測定する方法を紹介します

テキストから画像を生成するモデルは、人工知能の進歩の最も良い例の一つです。研究者たちの持続的な進歩と努力により、これらのモデルは長い道のりを歩んできました。テキストから画像を生成するモデルの大幅な進歩があるにもかかわらず、これらのシステムは通常、提供された書かれた説明と正確に一致する画像を生成することができません。既存のモデルでは、画像内の複数のアイテムを正しく組み合わせるための支援、適切なオブジェクトに特性を割り当てるための支援、および視覚的なテキストの生成が必要です。

研究者たちは、生成モデルがこれらの困難を処理する能力を向上させるために、言語構造を導入して画像の作成を指示することを試みてきました。CLIPScoreなどの手法では、作成された画像がテキスト入力とどれだけ似ているかを評価するためにCLIP埋め込みを使用しますが、事物を正確にカウントしたり合成的に推論する能力に制約があるため、信頼性のあるメトリックではありません。画像のキャプションを使用する方法もありますが、画像がテキストで説明され、元の入力と比較されます。しかし、このアプローチでは、ラベリングモデルが画像の重要な側面を見落としたり、無関係な領域に集中したりする可能性があるため、不十分です。

これらの問題を解決するために、ワシントン大学とAI2の研究者チームは、TIFA(Text-to-Image Faithfulness evaluation with Question Answering)を導入しました。TIFAは、視覚的な質問応答(VQA)を利用して、画像が関連するテキスト入力とどれだけ一致するかを判断するための自動評価メトリックです。チームは、言語モデルを使用して与えられたテキスト入力からさまざまな質問と回答のペアを生成しました。作成された画像を使用してよく知られたVQAモデルがこれらのクエリに正しく応答できるかどうかを調べることにより、画像の信憑性を評価することができます。

TIFAは、出力画像の品質の徹底的かつ簡単な評価を可能にする無参照メトリックとして際立っています。他の評価メトリックと比較して、TIFAは人間の判断とより強い関連性を示しました。この手法を基礎として、チームはTIFA v1.0も発表しており、これには4Kのテキスト入力と12の異なるカテゴリ(オブジェクトやカウントなど)に分割された合計25Kの質問が含まれています。TIFA v1.0を使用して、既存のテキストから画像へのモデルを包括的に評価し、現在の問題と困難を明らかにしました。

色や材料の表現などの面で優れているにもかかわらず、TIFA v1.0を使用したテストでは、現代のテキストから画像へのモデルは、空間関係や複数のオブジェクトを正確に描写することにまだ問題があります。研究チームは、彼らのベンチマークを導入することで、テキストから画像への合成の分野での進歩を評価するための正確な基準の構築を目指しています。彼らは貴重な洞察を提供することにより、指摘された制約を克服し、この技術のさらなる発展を促進するためのすべての将来の研究を導くことを望んでいます。

結論として、TIFAは画像とテキストの整合性を測定するための優れた手法であり、まずLLMによって質問のリストを生成し、次に画像に対して視覚的な質問応答を行い、正確性を計算します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

新技術における公共の利益の定義

新しいオンラインジャーナルが、テクノロジーを設計、実装、評価する個人の社会的責任について議論するために、MITコミュニテ...

AIニュース

Amazon Lex、Langchain、およびSageMaker Jumpstartを使用した会話型エクスペリエンスにおける生成AIの探求:イントロダクション

現代の快速な世界では、顧客はビジネスから迅速かつ効率的なサービスを期待していますただし、問い合わせの量が対応する人的...

AI研究

AIモデルが高解像度のコンピュータビジョンを高速化します

システムは、ビデオストリーミングにおける画像品質の向上や、自動運転車両がリアルタイムで道路の危険を識別するのに役立つ...

機械学習

「効果的なマーケティング戦略開発のための機械学習の活用」

マーケティングアトリビューションモデルは、マーケティング戦略を構築するために広く使用されていますこれらの戦略は、顧客...

機械学習

予測モデルの構築:Pythonにおけるロジスティック回帰

著者によるイメージ 機械学習を始めるとき、ロジスティック回帰は最初にツールボックスに追加するアルゴリズムの一つですこ...

データサイエンス

「データサイエンスの面接を改善する簡単な方法」

この投稿では、未経験のデータサイエンスの採用マネージャーとしての過ちについての物語と、それが私の技術面接の方法に与え...