ドキュメントAIの加速

ドキュメントAIの進化

企業は、デジタルワークフローではアクセスできない知識を含むドキュメントで溢れています。これらのドキュメントには、手紙、請求書、フォーム、レポート、領収書などさまざまなものがあります。テキスト、ビジョン、マルチモーダルAIの改善により、その情報を解放することが可能になりました。この投稿では、チームがオープンソースのモデルを使用してカスタムソリューションを無償で構築する方法を紹介します!

ドキュメントAIには、イメージ分類、イメージからテキストへの変換、ドキュメントの質問応答、表の質問応答、ビジュアルの質問応答など、多くのデータサイエンスのタスクが含まれています。この投稿では、Document AI内のユースケースのタクソノミーとそれに対する最適なオープンソースモデルに焦点を当てています。次に、ライセンス、データの準備、モデリングについて説明します。この投稿では、Webデモ、ドキュメンテーション、モデルへのリンクがあります。

ユースケース

ドキュメントAIソリューションを構築するための一般的なユースケースは少なくとも6つあります。これらのユースケースは、ドキュメントの入力と出力の種類が異なります。企業のドキュメントAIの問題を解決する際には、しばしばアプローチの組み合わせが必要です。

DiTを使用したドキュメントのレイアウト分析。

ドキュメントのレイアウト分析では、一般的にオブジェクト検出モデルの評価によく使用されるmAP(平均適合率)メトリックが使用されます。レイアウト分析の重要なベンチマークはPubLayNetデータセットです。最新の状態のLayoutLMv3は、全体的なmAPスコアが0.951(ソース)を達成しています。

次のステップ

Document AIの可能性を見ていますか?私たちは日々、最先端のビジョンと言語モデルを使用して、企業と一緒に貴重なデータを解放するために取り組んでいます。この投稿では、さまざまなデモへのリンクを含めたので、それらを出発点として活用してください。投稿の最後のセクションには、ビジュアルの質問応答など、独自のモデルをコーディングし始めるためのリソースが含まれています。ソリューションの構築を開始する準備ができたら、Hugging Faceパブリックハブは素晴らしい出発点です。さまざまなDocument AIモデルがホストされています。

Document AIの取り組みを加速させたい場合、Hugging Faceがお手伝いします。エンタープライズアクセラレーションプログラムを通じて、AIのユースケースに関するガイダンスを提供するために企業と提携しています。Document AIの場合、事前学習モデルの構築、ファインチューニングタスクの精度向上、最初のDocument AIユースケースに取り組むための総合的なガイダンスなどを支援することができます。

また、トレーニング(AutoTrain)や推論(SpacesまたはInference Endpoints)製品の大規模な使用に対して、計算クレジットのバンドルを提供することもできます。

リソース

多くのDocument AIモデルのノートブックとチュートリアルは以下で見つけることができます:

  • NielsのTransformers-Tutorials
  • PhilippのHugging Face TransformersによるDocument AI

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

「ElaiのCEO&共同創業者、Vitalii Romanchenkoについてのインタビューシリーズ」

ヴィタリー・ロマンチェンコは、ElaiのCEO兼共同創設者であり、マイク、カメラ、俳優、スタジオの必要なく、個人が一流のビデ...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...