Google AIは、ドキュメント理解タスクの進捗状況をより正確に追跡するためのデータセットである「Visually Rich Document Understanding (VRDU)」を導入しました

Google AI introduced the dataset Visually Rich Document Understanding (VRDU) to track the progress of document understanding tasks more accurately.

I had trouble accessing your link so I’m going to try to continue without it.

今日のデジタル時代において、ビジネスによって作成された文書はますます増え、保存されています。これらの文書には有用な情報が含まれている場合もありますが、読みやすく理解しやすいとは限りません。請求書、フォーム、契約書など、視覚的に複雑なものはさらに困難を伴います。このような出版物のレイアウト、表、グラフィックスは、有用な情報を抽出することを困難にするかもしれません。

この知識のギャップを埋め、文書理解タスクの進捗状況を改善するために、Googleの研究者は新しい「Visually Rich Document Understanding (VRDU)」データセットの提供を発表しました。このデータセットは、通常文書理解モデルで処理される実世界の文書のタイプに基づいており、効果的なベンチマークのための5つの基準を示しています。研究コミュニティで最も一般的に使用されるデータセットが少なくとも1つの基準を満たしていないのに対し、VRDUはすべての基準で優れています。Googleの研究者は、VRDUデータセットと評価コードをクリエイティブ・コモンズ・ライセンスの下で一般に公開することを喜んでいます。

「Visually Rich Document Understanding (VRDU)」という研究分野の目標は、このような資料を自動的に理解する方法を見つけることです。VRDUモデルを使用すると、名前、住所、日付、合計などの構造化情報を文書から抽出することができます。請求書処理、CRM、詐欺検出など、ビジネスがこの情報を活用する方法はさまざまです。

VRDUはさまざまな障害に直面しています。文書の種類の幅広さはその1つです。視覚的に豊かな文書は複雑なパターンと配置を持つため、さらなる困難を伴います。VRDUモデルは、入力データのタイプミスや欠損などの不完全な入力に対処できる必要があります。

障害にもかかわらず、VRDUは有望で急速に発展している分野です。VRDUモデルは、企業がコストを削減し、効率を向上させながら、オペレーションの精度を高めるのに役立つことができます。

過去数年間、複雑なビジネス文書を処理し、構造化オブジェクトに変換するための高度な自動システムが開発されてきました。手動でのデータ入力は時間がかかります。領収書、保険見積もり、財務諸表などの文書からデータを自動的に抽出できるシステムは、この手順を省略することで企業の効率を大幅に向上させることができます。Transformerフレームワークをベースにした新しいモデルは、大幅な精度向上を示しています。PaLM 2などのより大規模なモデルも使用して、これらのビジネスプロセスを最適化しています。ただし、実世界の使用事例で観察される困難は、学術論文で使用されるデータセットには反映されていません。つまり、モデルは学術的な基準ではうまく機能する一方で、より複雑な実世界の文脈では性能が低下します。

測定基準

まず、研究者は学術的なベンチマーク(例:FUNSD、CORD、SROIE)と実世界の使用事例での最先端モデルの精度(例:FormNet、LayoutLMv2との比較)を対比しました。研究者は、実際の使用事例では最先端モデルの方が学術的なベンチマークよりもはるかに精度が低いことを発見しました。次に、一般的なデータセットを文書理解モデルと学術的なベンチマークと比較し、データセットが実世界の応用の複雑さを正確に反映するための5つの条件を開発しました。

研究では、構造化抽出に使用されるさまざまなリッチスキーマに遭遇します。数値、テキスト、日付、時間情報など、必要な場合もあればオプションの場合もある、繰り返される場合もあればネストされる場合もある、さまざまな種類のエンティティデータがあります。実践の典型的な問題は、ヘッダー、質問、回答などの単純なフラットスキーマ上で実行される抽出操作に反映されるべきです。

文書にはさまざまなタイプのレイアウト要素が多く含まれている必要があります。文書には表、キーバリューペア、単一列および二列のレイアウト、さまざまなセクションの可変フォントサイズ、キャプション付きの画像、脚注などが含まれる場合があります。一方、長い入力に関する自然言語処理の研究では、ほとんどの論文が文、段落、セクションヘッダーで配置されているデータセットに焦点を当てています。

異なる構造を持つテンプレートは、有用なベンチマークに含まれるべきです。高容量モデルは、与えられたテンプレートの構造を素早く記憶し、それからの抽出を容易にすることができます。ベンチマークのトレーニングとテストの分割は、新しいテンプレート/レイアウトに対して一般化する能力を評価する必要があります。これは実践において重要です。

すべての提出文書に対して、光学文字認識(OCR)の結果は高品質である必要があります。このベンチマークは、OCRエンジンの違いがVRDUのパフォーマンスに与える影響を排除することを目的としています。

トークンレベルでの注釈:文書には、個々のトークンがそれぞれのエンティティの一部として注釈付けされ、マッチング入力テキストにマッピングできるグラウンドトゥルースの注釈が含まれている必要があります。これは、通常の方法ではエンティティの値のテキストを渡す標準的な方法とは対照的です。これにより、提供された値との偶発的な一致を避けた、クリーンなトレーニングデータが生成され、研究者は他の側面に集中することができます。たとえば、領収書の「税金前の合計」フィールドがゼロの場合、両方の出現が「合計」フィールドのグラウンドトゥルースとして指定されるノイズのある例が含まれないトレーニングデータが回避されます。

VRDUのデータセットとタスク

VRDUコレクションには、2つの別々の公開データセットが含まれています-登録フォームデータセットと広告購入フォームデータセットです。これらのデータセットは、現実世界のシナリオに適用され、上記の5つの基準をすべて満たすインスタンスを提供しています。

広告購入フォームコレクションの641ファイルは、政治広告の側面を説明しています。テレビ局と提唱団体がそれぞれ請求書または領収書に署名しています。製品名、放送日、総費用、リリース時間などは、ドキュメントのテーブル、複数の列、キーと値のペアに記録されています。

登録フォームコレクションには1,915のファイルがあり、アメリカ政府に登録した外国エージェントのバックグラウンドと活動の詳細が記載されています。公開される必要のある活動に従事する外国エージェントに関する重要な詳細が、各ドキュメントに記録されています。登録者の名前、関連する機関の住所、登録された活動などの情報が含まれます。

最近のVRDUの進展

VRDUでは、最近多くの進展がありました。大規模な言語モデル(LLM)はその一つです。大規模な表現類似性測定(LLM)は、テキストとコードの大規模なデータセットでトレーニングされ、図形豊かなテキストのテキストとレイアウトを表現するために使用できます。

「少数の学習手法」の作成も重要な成果です。少数の学習手法を使用すると、VRDUモデルは新しいドキュメントタイプから情報を迅速に抽出することができます。これは、VRDUモデルが適用できるテキストの種類を拡大するため、重要です。

Google Researchは、VRDUベンチマークを研究コミュニティに提供しています。請求書とフォームは、VRDU標準に含まれる視覚的に豊かなドキュメントの例です。請求書データセットには10,000の請求書があり、フォームデータセットには10,000のフォームがあります。VRDUベンチマークには、パフォーマンスを評価するためのよく考えられたツールセットも備わっています。

VRDUの研究者は、このベンチマークを貴重なツールとして活用することができます。研究者は、さまざまなVRDUモデルが同じテキストコーパス上でどれだけ優れたパフォーマンスを発揮するかを評価することができます。VRDUベンチマークは、問題を見つけるだけでなく、将来の研究にも役立つことができます。

  • VRDUモデルを使用して、ドキュメントから抽出されるような構造化データ。
  • 名前、住所、日付、金額、製品、サービス、条件、要件。
  • VRDUモデルを使用することで、以下のようないくつかの有用なビジネス手続きを自動化することができます。
  • 請求書の処理、既存の顧客へのマーケティングと管理、詐欺コンプライアンスの検出、当局への報告。
  • VRDUモデルによって、システム内の手入力情報の量を減らすことで、会社の業務の精度を向上させることができます。
  • ドキュメント処理のワークフローを自動化することで、VRDUモデルは企業の時間とお金を節約するのに役立ちます。
  • 組織は、VRDUモデルを使用して、サービスの迅速化と向上により顧客満足度を向上させることができます。

VRDUの将来

VRDUの将来は楽観的です。LLMの開発と少数の学習手法の進展により、将来的にはより堅牢で柔軟なVRDUモデルが実現されるでしょう。そのため、VRDUモデルはより多くのビジネスプロセスを自動化し、さまざまな種類のドキュメントに適用することができます。

企業世界で文書処理と理解に使用される場合、VRDUは大きな影響を与える可能性があります。仮想現実文書理解(VRDU)は、文書理解のプロセスを自動化することで、企業の時間とお金を節約するだけでなく、業務の精度を向上させることもできます。

Googleの研究者による実験は、VRDUのタスクの難しさと、現代のモデルと文献で一般的に使用されるデータセットとの比較における改善の大きな機会を示しています。F1スコアが0.90以上のものが一般的です。VRDUデータセットと評価コードは、研究チーム間で文書理解の最先端の進歩に役立つことを願って、公開される予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more