AWSの知的ドキュメント処理を生成AIで強化する

Enhancing AWS's intelligent document processing with AI

データの分類、抽出、分析は、大量の文書を取り扱う組織にとって困難な課題となることがあります。従来の文書処理ソリューションは、手作業が必要で、費用がかかり、エラーが発生しやすく、スケールするのが難しいという問題があります。Amazon TextractなどのAIサービスを使用したAWSのインテリジェントドキュメント処理（IDP）では、スキャンされた文書や画像からデータを迅速かつ正確に処理するために、業界をリードする機械学習（ML）技術を活用することができます。生成型人工知能（生成型AI）は、Amazon Textractによってさらに文書処理のワークフローを自動化するのに役立ちます。キー項目の正規化や入力データの要約などの機能により、文書処理のワークフローの管理サイクルを高速化し、エラーの可能性を低減することができます。

生成型AIは、ファウンデーションモデル（FM）と呼ばれる大規模なMLモデルによって駆動されます。FMは、従来の複雑な文書処理ワークロードを解決する方法を変革しています。既存の機能に加えて、財務報告書や銀行取引明細書などの文書からの借方と貸方のデータを含む特定の情報カテゴリを要約する必要があります。FMを使用することで、抽出されたデータからそのような洞察を生成することが容易になります。人間のレビューに費やす時間を最適化し、従業員の生産性を向上させるために、電話番号の桁漏れ、文書の不足、または番地のない住所などのミスを自動的にフラグ付けすることができます。現在のシナリオでは、人間のレビューと複雑なスクリプトを使用してこのようなタスクを達成するためにリソースを割り当てる必要があります。このアプローチは手間がかかり、費用がかかります。FMを使用することで、これらのタスクをより迅速に、より少ないリソースで完了させ、さらに処理できる標準テンプレートに異なる入力形式を変換することができます。AWSでは、Amazon Bedrockなどのサービスを提供しており、FMsを使用した生成型AIアプリケーションの構築とスケーリングを最も簡単に行うことができます。Amazon Bedrockは、AIスタートアップとAmazonのFMsをAPIを介して利用できる完全管理型サービスであり、要件に最適なモデルを見つけることができます。また、Amazon SageMaker JumpStartも提供しており、MLプラクティショナーは幅広いオープンソースのFMから選ぶことができます。MLプラクティショナーは、ネットワーク分離された環境から専用のAmazon SageMakerインスタンスにFMをデプロイし、モデルのトレーニングとデプロイにはSageMakerを使用してモデルをカスタマイズすることができます。

リコーは、顧客がビジネス全体で情報フローを管理し最適化するのに役立つワークプレースソリューションとデジタルトランスフォーメーションサービスを提供しています。ポートフォリオソリューション開発のバイスプレジデントであるアショク・シェノイ氏は、「IDPソリューションに生成型AIを追加することで、Q&A、要約、標準化された出力などの新しい機能を活用して、お客様が仕事をより迅速かつ正確に完了できるようにサポートしています。AWSは、お客様ごとにデータを分離して安全に生成型AIを活用することができるため、私たちにとって理想的な選択肢です。」と述べています。

この記事では、AWS上の生成型AIを使用してIDPソリューションを強化する方法を共有します。

IDPパイプラインの改善

このセクションでは、従来のIDPパイプラインをFMで拡張する方法について説明し、Amazon Textractを使用したFMとの使用例を進めます。

AWS IDPは、分類、抽出、エンリッチメントの3つのステージで構成されています。各ステージの詳細については、「AWS AIサービスを使用したインテリジェントドキュメント処理：パート1」と「パート2」をご参照ください。分類ステージでは、FMを使用して追加のトレーニングなしに文書を分類することが可能です。つまり、モデルが類似の例を見たことがなくても、文書をカテゴリ分けすることができます。抽出ステージのFMでは、日付フィールドを正規化し、住所と電話番号を検証し、一貫したフォーマットを確保します。エンリッチメントステージのFMでは、推論、論理的な推論、要約が可能です。各IDPステージでFMを使用すると、ワークフローがより効率化され、パフォーマンスが向上します。次の図は、生成型AIを使用したIDPパイプラインを示しています。

IDPパイプラインの抽出ステージ

FMがネイティブ形式の文書（PDF、img、jpeg、tiffなど）を直接処理できない場合、文書をテキストに変換するメカニズムが必要です。FMsに送信する前にドキュメントからテキストを抽出するために、Amazon Textractを使用することができます。Amazon Textractを使用すると、行や単語を抽出してそれを下流のFMに渡すことができます。次のアーキテクチャは、さまざまな種類のドキュメントから正確なテキスト抽出を行い、それを後続のFMsに送信するためにAmazon Textractを使用していることを示しています。

通常、ドキュメントは構造化および半構造化の情報から成り立っています。Amazon Textractは、表やフォームから生のテキストとデータを抽出するために使用することができます。表やフォーム内のデータの関係は、ビジネスプロセスを自動化する上で重要な役割を果たします。一部の情報はFMsによって処理されない場合があります。その結果、この情報をダウンストリームのストアに保存するか、FMsに送信するかを選択することができます。次の図は、Amazon Textractがドキュメントから構造化および半構造化の情報を抽出する方法の例です。さらに、FMsによって処理される必要があるテキストの行も抽出します。

AWSサーバーレスサービスを使用してFMsで要約する

先ほど説明したIDPパイプラインは、AWSサーバーレスサービスを使用してシームレスに自動化することができます。大企業では非常に非構造化のドキュメントが一般的です。これらのドキュメントは銀行業界の証券取引委員会（SEC）の文書から、健康保険業界のカバレッジ文書まで広範囲にわたることがあります。AWSにおける生成AIの進化に伴い、これらの業界の人々はこれらのドキュメントから要約を自動かつ費用効果の高い方法で取得する方法を探しています。サーバーレスサービスは、IDPのためのソリューションを迅速に構築するメカニズムを提供します。AWS Lambda、AWS Step Functions、およびAmazon EventBridgeなどのサービスを使用すると、次の図に示すように、FMsの統合を伴うドキュメント処理パイプラインを構築するのに役立ちます。

前述のアーキテクチャで使用されるサンプルアプリケーションは、イベントによって駆動されます。イベントは最近発生した状態の変化と定義されます。たとえば、Amazon Simple Storage Service（Amazon S3）バケットにオブジェクトがアップロードされると、Amazon S3はオブジェクト作成イベントを発行します。Amazon S3からのこのイベント通知は、Lambda関数またはStep Functionsワークフローをトリガーすることができます。このタイプのアーキテクチャは、イベント駆動型アーキテクチャと呼ばれます。この投稿では、サンプルアプリケーションはイベント駆動型アーキテクチャを使用して、サンプルの医療退院文書を処理し、文書の詳細を要約します。フローは次のように動作します。

ドキュメントがS3バケットにアップロードされると、Amazon S3はオブジェクト作成イベントをトリガーします。
EventBridgeのデフォルトイベントバスは、EventBridgeルールに基づいてイベントをStep Functionsに伝播させます。
ステートマシンワークフローは、Amazon Textractを始めとするドキュメントの処理を行います。
Lambda関数は、分析されたデータを次のステップに変換します。
ステートマシンは、直接AWS SDKの統合を使用してFMをホストするSageMakerエンドポイントを呼び出します。
要約された応答は、要約S3宛の宛先バケットに受け取られます。

フランティ5 Hugging Faceモデルを使用したサンプルアプリケーションを使用して、次のサンプル患者退院要約をStep Functionsワークフローを使用して要約しました。

Step Functionsワークフローでは、次の図に示すように、Amazon Textract AnalyzeDocumentおよびSageMaker runtime InvokeEndpoint APIを呼び出すためにAWS SDKの統合を使用します。

このワークフローにより、要約されたJSONオブジェクトが宛先バケットに保存されます。JSONオブジェクトは次のようになります：

{

  "summary": [

    "ジョン・ドウは35歳の男性で、2ヶ月間胃の問題を抱えています。彼は過去2週間で抗生物質を服用していますが、あまり食べることができません。腹部の痛み、膨満感、疲労感を感じています。また、便の色が暗くなったことにも気付いています。過去2週間で抗酸化剤を服用していますが、もはや効果がありません。彼は非常に疲れを感じており、過去2週間間は働くことができませんでした。腹部の痛み、膨満感、疲労感を感じています。過去2週間で抗酸化剤を服用していますが、もはや効果がありません。腹部の痛み、膨満感、疲労感を感じています。過去2週間で抗酸化剤を服用していますが、もはや効果がありません。腹部の痛み、膨満感、疲労感を感じています。過去2週間で抗酸化剤を服用していますが、もはや効果がありません。腹部の痛み、膨満感、疲労感を感じています。過去2週間で抗酸化剤を服用していますが、もはや効果がありません。"

  ],

  "forms": [

    {

      "key": "電話番号：",

      "value": "(888)-(999)-(0000)"

    },

    {

      "key": "ファックス：",

      "value": "(888)-(999)-(1111)"

    },

    {

      "key": "患者名：",

      "value": "ジョン・ドウ"

    },

    {

      "key": "患者ID：",

      "value": "NARH-36640"

    },

    {

      "key": "性別：",

      "value": "男性"

    },

    {

      "key": "担当医師：",

      "value": "メイト・ジャクソン、PhD"

    },

    {

      "key": "入院日：",

      "value": "2020年9月7日"

    },

    {

      "key": "退院日：",

      "value": "2020年9月8日"

    },

    {

      "key": "退院状況：",

      "value": "サポートサービス付き
このIDPを使用したサーバーレス実装によって、組織は意味のある、簡潔で見栄えの良いデータを費用効果の良い方法で取得することができます。Step Functionsは、ドキュメントの処理方法を一度に1つのドキュメントに制限しません。分散マップ機能により、大量のドキュメントをスケジュールに基づいて要約することができます。
サンプルアプリケーションでは、flan-t5 Hugging Faceモデルを使用していますが、お好みのFMエンドポイントを使用することもできます。モデルのトレーニングと実行は、サンプルアプリケーションの対象外です。サンプルアプリケーションを展開するための手順については、GitHubリポジトリの指示に従ってください。前述のアーキテクチャは、Step Functionsを使用してIDPワークフローをオーケストレートする方法のガイドです。AWS AIサービスとFMを使用したアプリケーションの構築方法の詳細な手順については、IDP Generative AIワークショップを参照してください。
ソリューションの設定
READMEファイルの手順に従ってソリューションのアーキテクチャを設定します（SageMakerエンドポイントのみを除く）。独自のSageMakerエンドポイントが利用可能になったら、テンプレートにエンドポイント名をパラメータとして渡すことができます。
クリーンアップ
コストを節約するために、チュートリアルの一部として展開したリソースを削除してください：

READMEファイルのクリーンアップセクションの手順に従います。
Amazon S3コンソールを介してS3バケットからコンテンツを削除し、その後バケットを削除します。
SageMakerコンソールを介して作成したSageMakerエンドポイントを削除します。

結論
Generative AIは、IDPを使用してドキュメントを処理し、洞察を導き出す方法を変えています。Amazon TextractなどのAWS AIサービスとAWS FMを使用すると、あらゆるタイプのドキュメントを正確に処理することができます。AWSでのGenerative AIの使用方法については、「Announcing New Tools for Building with Generative AI on AWS」を参照してください。

                  We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
                  
                    Amazon BedrockAmazon ComprehendAmazon Comprehend MedicalAmazon Machine LearningAmazon TextractArtificial IntelligenceThought Leadership                  

                  
                  
                    
                      Share:















                    
                  
                  

                  
                    
                      
                    
                    
                      
                    
                  
                  
                        
        
          Was this article helpful?
        

        
          
          
        

        93 out of 132 found this helpful
      
                  Related articles
        
        「チューリングテストと中国の部屋の議論に基づく大規模言語モデル」

        「GPTCacheとは：LLMクエリセマンティックキャッシュの開発に役立つライブラリを紹介します」

        Amazon SageMakerとAmazon Rekognitionを使用して、画像内の車の位置を検出するためのコンピュータビジョンモデルを構築してトレーニングする

        「機械学習の未来：新興トレンドと機会」

        「マッキンゼー・レポートからの5つの重要な洞察：創発的AIの未来への影響」

        このAI論文は、大規模なビジョン・ランゲージ・ナビゲーション（VLN）トレーニングのための効果的なパラダイムを提案し、パイプライン内の各コンポーネントの影響を定量的に評価しています

        AIシステム：発見されたバイアスと真の公正性への魅力的な探求
                  
                    
                      
                      マシンラーニングのロードマップ：コミュニティの推奨事項2023
                    
                    

                    
                      
                        
                      
                      『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

AWSの知的ドキュメント処理を生成AIで強化する

IDPパイプラインの改善

IDPパイプラインの抽出ステージ

AWSサーバーレスサービスを使用してFMsで要約する

ソリューションの設定

クリーンアップ

結論

Was this article helpful?

マシンラーニングのロードマップ：コミュニティの推奨事項2023

『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

機械学習

「機械学習アルゴリズムとGAN」

「GPTの内部- I：テキスト生成の理解」

この AI ペーパーでは、X-Raydar を発表します：画期的なオープンソースの深層ニューラルネットワークによる胸部 X 線異常検出

「KOSMOS-2：Microsoftによるマルチモーダルな大規模言語モデル」

統合と自動化の簡素化：Boomi CTOが開発者と共有するビジョン

ChatGPTで説得力を高めましょう