ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します

ワシントン大学とAI2の研究者が、TIFAという自動評価指標でAIが生成した画像の忠実度を測定する方法を紹介します

テキストから画像を生成するモデルは、人工知能の進歩の最も良い例の一つです。研究者たちの持続的な進歩と努力により、これらのモデルは長い道のりを歩んできました。テキストから画像を生成するモデルの大幅な進歩があるにもかかわらず、これらのシステムは通常、提供された書かれた説明と正確に一致する画像を生成することができません。既存のモデルでは、画像内の複数のアイテムを正しく組み合わせるための支援、適切なオブジェクトに特性を割り当てるための支援、および視覚的なテキストの生成が必要です。

研究者たちは、生成モデルがこれらの困難を処理する能力を向上させるために、言語構造を導入して画像の作成を指示することを試みてきました。CLIPScoreなどの手法では、作成された画像がテキスト入力とどれだけ似ているかを評価するためにCLIP埋め込みを使用しますが、事物を正確にカウントしたり合成的に推論する能力に制約があるため、信頼性のあるメトリックではありません。画像のキャプションを使用する方法もありますが、画像がテキストで説明され、元の入力と比較されます。しかし、このアプローチでは、ラベリングモデルが画像の重要な側面を見落としたり、無関係な領域に集中したりする可能性があるため、不十分です。

これらの問題を解決するために、ワシントン大学とAI2の研究者チームは、TIFA(Text-to-Image Faithfulness evaluation with Question Answering)を導入しました。TIFAは、視覚的な質問応答(VQA)を利用して、画像が関連するテキスト入力とどれだけ一致するかを判断するための自動評価メトリックです。チームは、言語モデルを使用して与えられたテキスト入力からさまざまな質問と回答のペアを生成しました。作成された画像を使用してよく知られたVQAモデルがこれらのクエリに正しく応答できるかどうかを調べることにより、画像の信憑性を評価することができます。

TIFAは、出力画像の品質の徹底的かつ簡単な評価を可能にする無参照メトリックとして際立っています。他の評価メトリックと比較して、TIFAは人間の判断とより強い関連性を示しました。この手法を基礎として、チームはTIFA v1.0も発表しており、これには4Kのテキスト入力と12の異なるカテゴリ(オブジェクトやカウントなど)に分割された合計25Kの質問が含まれています。TIFA v1.0を使用して、既存のテキストから画像へのモデルを包括的に評価し、現在の問題と困難を明らかにしました。

色や材料の表現などの面で優れているにもかかわらず、TIFA v1.0を使用したテストでは、現代のテキストから画像へのモデルは、空間関係や複数のオブジェクトを正確に描写することにまだ問題があります。研究チームは、彼らのベンチマークを導入することで、テキストから画像への合成の分野での進歩を評価するための正確な基準の構築を目指しています。彼らは貴重な洞察を提供することにより、指摘された制約を克服し、この技術のさらなる発展を促進するためのすべての将来の研究を導くことを望んでいます。

結論として、TIFAは画像とテキストの整合性を測定するための優れた手法であり、まずLLMによって質問のリストを生成し、次に画像に対して視覚的な質問応答を行い、正確性を計算します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

このツールは、AIによる画像の操作からあなたの写真を保護することができます

「PhotoGuard」は、MITの研究者によって作成されたもので、我々には感知できない方法で写真を変更することで、AIシステムがそ...

AI研究

このAI研究は、DISC-MedLLMという包括的な解決策を提案し、大規模言語モデル(LLM)を活用して正確な医療応答を提供します

テレメディシンの台頭により、医療の提供方法が変わり、プロフェッショナルネットワークを広げ、価格を下げ、遠隔医療相談を...

機械学習

線形回帰の理論的な深堀り

多くのデータサイエンス志望のブロガーが行うことがあります 線形回帰に関する入門的な記事を書くことですこれは、この分野に...

人工知能

「GPT-4に対する無料の代替案トップ5」

GPT-4がすごいと思っている?これらの生成AIの新参者たちは既に注目を集めているよ!

人工知能

「月光スタジオのAIパワード受付アバター、NANAに会いましょう」

エディター注:この投稿は、当社の週刊「In the NVIDIA Studio」シリーズの一環であり、注目のアーティストを紹介し、クリエ...