自分自身のレンズでウェルアーキテクチャなIDPソリューションを構築する – パート6:持続可能性

「持続可能性を考慮したウェルアーキテクチャのためのIDPソリューションを自己のレンズで構築する - パート6」

インテリジェントドキュメント処理(IDP)プロジェクトは、通常、光学文字認識(OCR)と自然言語処理(NLP)を組み合わせて、ドキュメントを自動的に読み取り理解するために使用されます。顧客はあらゆる業界でIDPワークロードをAWS上で実行し、KYCフォーム、税務書類、請求書、保険請求、配信レポート、在庫レポートなどの自動化ユースケースを実現することでビジネス価値を提供しています。AWS上のIDPワークフローは、ドキュメントからビジネスインサイトを抽出し、手作業を削減し、高速かつ高精度でドキュメントを処理するのに役立ちます。

クラウドでの本番用のIDPソリューションを構築するには、コスト、可用性、処理速度、持続可能性の間でトレードオフを行う必要があります。この投稿では、Amazon TextractAmazon Comprehend、およびIDP Well-Architectedカスタムレンズを使用してIDPワークフローの持続可能性を向上させるためのガイダンスとベストプラクティスを提供します。

AWS Well-Architected Frameworkは、AWS上でワークロードを構築する際の意思決定の利点とリスクを理解するのを助けます。AWS Well-Architectedカスタムレンズは、Well-Architected Frameworkを補完し、より業界固有、ドメイン固有、またはワークフロー固有のコンテンツを提供します。Well-Architected FrameworkとIDP Well-Architectedカスタムレンズを使用することで、クラウドで信頼性の高い、安全な、効率的な、コスト効果の高い、持続可能なワークロードの設計と運用に関するベストプラクティスについて学ぶことができます。

IDP Well-Architectedカスタムレンズでは、実際のフィールドで見られるIDPワークフローの一般的な課題に対処する方法についてのガイダンスを提供します。Well-Architected Toolで一連の質問に回答することで、潜在的なリスクを特定し、改善計画に従ってそれらに対処することができます。

この投稿では、IDPカスタムレンズの持続可能性の柱に焦点を当てています。持続可能性の柱は、以下の設計原則に従ってソリューションの設計と実装に焦点を当てます: 影響の理解、リソースの最大限利用とマネージドサービスの利用、変化の予測と改善の準備。これらの原則は、ビジネスの結果を持続可能性を考慮して達成するための重要なポイントとなります。また、データとそのライフサイクルの効果的な管理、そして継続的な改善に備えるために準備しておくことも重要です。

設計原則

持続可能性の柱は、以下の設計原則に基づいてソリューションを設計および実装します:

  • 影響の理解 – IDPワークロードの持続可能性の影響を測定し、将来の影響をモデル化します。製品の顧客使用も含め、すべての影響源を含めることが重要です。また、IDPによるデジタル化とペーパレス処理の実現による影響も含まれます。IDPワークロードのための主要パフォーマンス指標(KPI)を設定し、生産性と効率を向上させながら環境への影響を減らす方法を評価します。
  • リソースの最大限利用とマネージドサービスの利用 – アイドルリソース、処理、およびストレージを最小限に抑え、IDPワークロードの実行に必要なエネルギー総量を削減します。AWSは大規模に運営されているため、広範な顧客基盤でサービスを共有することでリソース利用率を最大化し、エネルギー効率を最大化し、IDPワークロードをサポートするために必要なインフラストラクチャの量を減らすことができます。AWSのマネージドサービスを使用することで、IDPワークロードがコンピューティング、ネットワーキング、およびストレージに与える影響を最小限に抑えることができます。
  • 変化の予測と改善の準備 – パートナーやサプライヤーが行う上流の改善を予測し、サポートします。新しい効率的なハードウェアやソフトウェアの選択肢を常にモニタリングして評価します。変化を導入するための障壁を下げるための柔軟性を設計し、新しい効率的な技術の迅速な採用を可能にします。

焦点領域

持続可能性の柱の設計原則とベストプラクティスは、顧客およびIDP技術スペシャリストコミュニティから収集した知見に基づいています。これらを利用して、デザイン上の意思決定を支援し、IDPソリューションをビジネスと持続可能性の要件に合わせることができます。

クラウドにおけるIDPソリューションの持続可能性の重点領域は次のとおりです:持続可能性を念頭に置いたビジネス結果の達成、データとそのライフサイクルの効果的な管理、そして継続的な改善の準備と推進。

持続可能性を念頭に置いてビジネス結果を達成する

ビジネスのニーズと持続可能性の目標に最適なリージョンを判断するために、以下の手順をお勧めします:

  • 潜在的なリージョンを評価および候補に挙げる – ビジネスの要件に基づいて、コンプライアンス、コスト、レイテンシなどを含め、ワークロードに適した潜在的なリージョンを候補に挙げることから始めます。新しいサービスや機能は段階的にリージョンに展開されます。IDPワークロードを実行するために必要なサービスや機能を持つリージョンは、リージョン別のAWSサービスのリストを参照して確認してください。
  • 100%再生可能エネルギーで供給されるリージョンを選択する – 候補に挙げたリージョンの中で、Amazonの再生可能エネルギープロジェクトに近いリージョンや、2022年に電力消費量が100%再生可能エネルギーに帰属していたリージョンを特定します。温室効果ガス(GHG)プロトコルに基づいて、電力生産からの排出量を追跡するためには、市場ベースの方法と位置ベースの方法の2つの方法があります。企業は、持続可能性ポリシーに基づいてこれらの方法のいずれかを選択し、年々の排出量を追跡および比較することができます。Amazonは、市場ベースのモデルを使用して排出量を報告しています。炭素排出量を削減するためには、2022年に電力消費量が100%再生可能エネルギーに帰属しているリージョンを選択してください。

データとそのライフサイクルを効果的に管理する

データはIDPソリューション全体で重要な役割を果たします。データの初期投入から始まり、さまざまな処理段階を経て最終的にエンドユーザーへの出力として返されます。データ管理の選択がIDPソリューション全体とその持続可能性にどのように影響するかを理解することが重要です。データの効率的な保管とアクセス、アイドルストレージリソースの削減により、より効率的で持続可能なアーキテクチャが実現されます。異なるストレージメカニズムを検討する際には、リソースの効率性、アクセスレイテンシ、信頼性のトレードオフを考慮する必要があります。これは、適切な管理パターンを選択する必要があることを意味します。このセクションでは、データ管理のためのいくつかのベストプラクティスについて説明します。

関連するデータのみを作成および投入する

持続可能性の観点からストレージフットプリントを最適化するために、ビジネス目標を満たすために必要なデータを評価し、IDPワークフローに沿って関連するデータのみを作成および投入します。

関連するデータのみを保存する

IDPワークフローを設計する際には、各ステップでどの中間データ出力を保存する必要があるかを考慮します。ほとんどのIDPワークフローでは、各中間ステップで使用または作成されたデータを保存する必要はありません。なぜなら、それは簡単に再現可能だからです。持続可能性を向上させるためには、再現可能性の低いデータのみを保存します。中間結果を保存する必要がある場合は、より厳しい保持要件のデータよりも迅速にアーカイブおよび削除するライフサイクルルールに該当するかどうかを検討してください。

開発やステージングなどのコンピューティング環境全体でデータを保護します。アーカイブおよび削除を含むデータライフサイクル管理プロセスを強制するメカニズムを実装し、未使用のデータを継続的に特定して削除します。

データの取り込みと保存を最適化するために、使用ケースに適した最適なデータ解像度を考慮してください。Amazon Textractでは、最低でも150 DPIが必要です。サポートされていないAmazon Textract形式(PDF、TIFF、JPEG、およびPNG)のドキュメントで、変換が必要な場合は、最大解像度を選択するのではなく、最適な解像度を得るために実験してください。

データを保存するために適切な技術を使用する

IDPワークフローでは、データの大部分はおそらくドキュメントであるでしょう。Amazon Simple Storage Service(Amazon S3)は、どの量のデータでもどこからでもデータを保存および取得するために作成されたオブジェクトストレージであり、IDPワークフローに適しています。異なるAmazon S3のストレージ層を使用することは、持続可能性のためのストレージの最適化の重要な要素です

さまざまなストレージメカニズムを考える際には、リソース効率、アクセスの待ち時間、信頼性のトレードオフを念頭に置いてください。つまり、適切な管理パターンを選択する必要があります。より揮発性の低いデータを長期ストレージに効率的に設計されたテクノロジーに保存することで、ストレージのフットプリントを最適化することができます。データのアーカイブや変化が遅いデータの保存には、Amazon S3 GlacierとAmazon S3 Glacier Deep Archiveが利用可能です。データの分類やワークフローに応じて、データを単一の可用性ゾーン内に保存することで電力とサーバ容量を削減できるAmazon S3 One Zone-IAを選択できます。

サステナビリティの目標に応じてデータライフサイクルを積極的に管理する

データライフサイクルを管理することは、ストレージのフットプリントを最適化することを意味します。IDPワークフローの場合、まずデータの保持要件を特定します。保持要件に基づいて、事前に定義されたルールに基づいてオブジェクトを異なるストレージクラスに自動転送するAmazon S3ライフサイクル設定を作成します。保持要件がなく、アクセスパターンが不明または変化するデータには、アクセスパターンを監視し、オブジェクトを自動的にティア間で移動させるAmazon S3 Intelligent-Tieringを使用します。

適切なツールを使用してストレージのフットプリントを継続的に最適化する

IDPワークフローのデータ使用状況とアクセスパターンは時間とともに変化する可能性があります。Amazon S3 Storage Lensなどのツールを使用すると、ストレージの使用状況やアクティビティのトレンドを把握し、改善のための推奨事項を提供することができます。これにより、データの保存の環境への影響をさらに低減できます。

データとコンピューティングの近接性を可能にする

顧客へのIDPワークフローの提供を拡大するにつれ、ネットワークを介して転送されるデータ量も増加します。同様に、データのサイズが大きく、パケットが送信される距離が長いほど、それを転送するためにより多くのリソースが必要となります。

ネットワークを介して送信されるデータ量を減らし、パケットの経路を最適化することで、より効率的なデータ転送が実現できます。データの保存をデータ処理に近い位置に設定することで、ネットワークレイヤのサステナビリティを最適化します。データを保存するリージョンは、IDPワークフローを展開しているリージョンと同じであることを確認してください。このアプローチにより、データをコンピューティング環境に転送する際の時間とコストを最小限に抑えることができます。

連続的な改善に備えて推進する

IDPワークフローのサステナビリティを向上させるためのプロセスは連続的なものであり、小規模で頻繁な改善をサポートする柔軟なアーキテクチャと自動化が必要です。アーキテクチャが疎結合であり、サーバーレスおよび管理されたサービスを使用している場合、新機能を困難なく有効にすることができ、サステナビリティを向上させ、性能効率を得るためにコンポーネントを置き換えることができます。このセクションでは、いくつかのベストプラクティスを共有します。

自動化を通じた安全かつ継続的な改善

全ての変更を自動化して展開することで、人為的なエラーの可能性を低減し、プロダクション変更を行う前にテストすることで計画を完了させることができます。継続的インテグレーションおよび継続的デリバリ(CI/CD)パイプラインを使用してソフトウェア配信プロセスを自動化し、手動プロセスによるエラーを制限し、作業量を削減するための潜在的な改善をテストおよび展開します。変更はインフラストラクチャのコード(IaC)を使用して定義されるべきです。すべての設定は宣言的に定義され、アプリケーションコードと同様にソースコントロールシステム(例:AWS CodeCommit)に保存されるべきです。インフラストラクチャのプロビジョニング、オーケストレーション、展開もIaCをサポートする必要があります。

ワークフローオーケストレーションにサーバレスサービスを使用する

IDPワークフローは通常、ピーク時と非アクティブ期間(営業時間外など)があり、イベントによって主に駆動されます(例:新しいドキュメントのアップロード時)。これにより、サーバレスソリューションが適しています。AWSのサーバーレスサービスを使用すると、IDPワークフローにスケーラブルなソリューションを迅速かつ持続可能に構築することができます。AWS LambdaAWS Step FunctionsAmazon EventBridgeなどのサービスを使用して、イベントによって駆動されるワークフローをオーケストレーションし、アイドルリソースを最小限に抑えてサステナビリティを向上させることができます。

イベント駆動型アーキテクチャを使用する

AWSのサーバーレスサービスを使用してイベント駆動型のアプローチを実装すると、スケーラブルで故障耐性のあるIDPワークフローを構築し、アイドルリソースを最小限に抑えることができます。詳細はこちら

たとえば、新しいドキュメントがアップロードされると、Amazon S3を設定して新しいワークフローを開始することができます。Amazon S3はEventBridgeをトリガーとして使用するか、Lambda関数を呼び出してAmazon Textractの検出ジョブを開始することができます。イベントのファンアウトやジョブ完了メッセージの送信には、Amazon Simple Notification Service(Amazon SNS)トピックを使用することができます。マイクロサービス間の信頼性の高い通信には、Amazon Simple Queue Service(Amazon SQS)を使用することができます。たとえば、Lambda関数を呼び出してAmazon Textractの出力を読み取り、カスタムAmazon Comprehend分類子を呼び出してドキュメントを分類することができます。

Amazon TextractおよびAmazon Comprehendなどのマネージドサービスを使用する

自己ホスト型のカスタムモデルまたはAmazon TextractおよびAmazon Comprehendなどのマネージドサービスを使用してIDPを実行することができます。カスタムモデルではなくマネージドサービスを使用することで、カスタムモデルの開発、トレーニング、再トレーニングに必要な作業量が減少します。マネージドサービスは共有リソースを使用するため、IDPソリューションの構築とメンテナンスに必要なエネルギーを削減し、持続可能性を向上させることができます。

AWSブログ記事を確認して機能の更新情報を把握する

AWSの発表や新機能に関する情報を把握し、IDPのワークロードを改善することができるさまざまなブログ記事やリソースがあります。AWS re:Postは、AWSのお客様が技術的な障害を解消し、イノベーションを加速し、業務を強化するために設計されたコミュニティドリブンのQ&Aサービスです。AWS re:PostにはAWS Well-Architectedに特化したコミュニティも含まれています。また、Amazon TextractAmazon Comprehendの最新情報を提供するサービス固有のブログもあります。

結論

本記事では、IDPワークフローの持続可能性を最適化するためのデザイン原則、焦点領域、ベストプラクティスを共有しました。クラウドでの持続可能性について詳しくは、以下のシリーズを参照してください:Optimizing your AWS Infrastructure for Sustainability, Part I: ComputePart II: Storage、そしてPart III: Networking

IDP Well-Architectedカスタムレンズについて詳しくは、このシリーズの以下の記事をご覧ください:

Reliability](https://aws.amazon.com/blogs/machine-learning/build-well-architected-idp-solutions-with-a-custom-lens-part-3-reliability/) – Build well-architected IDP solutions with a custom lens – Part 4: Performance efficiencyBuild well-architected IDP solutions with a custom lens – Part 5: Cost optimization – Build well-architected IDP solutions with a custom lens – Part 6: Sustainability

AWSは、IDP Well-Architected Lensを生きたツールとして専念しています。IDPソリューションと関連するAWS AIサービスが進化し、新しいAWSサービスが利用可能になるにつれて、IDP Well-Architected Lensも更新していきます。

AWSでIDPを始めるには、AWS上でのインテリジェントドキュメント処理の指針を参照して、IDPアプリケーションの設計と構築を行ってください。データの取り込み、分類、抽出、充実、検証、および検証、および使用について詳細な解説をするエンドツーエンドソリューションについては、AWS AIサービスを使用したインテリジェントドキュメント処理: パート1およびパート2を参照してください。また、Amazon Textract、Amazon Bedrock、およびLangChainを使用したインテリジェントドキュメント処理では、大規模言語モデル(LLM)を使用して新しいまたは既存のIDPアーキテクチャを拡張する方法について説明します。Amazon Textractを文書ローダーとしてLangChainと統合し、Amazon Bedrockを使用して文書からデータを抽出し、各IDPフェーズ内で生成能力のあるAI機能を使用する方法を学ぶことができます。

追加の専門知識が必要な場合は、AWSアカウントチームに連絡してIDPスペシャリストソリューションアーキテクトを取り入れるようにしてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

人工知能は人間を置き換えるのか?

はじめに 皆さんはご存知のとおり、AIは飛躍的な進歩を遂げ、科学者や一般の人々の想像をとらえています。ニュースやソーシャ...

機械学習

AIキャリアのトレンド:人工知能の世界で注目されているものは何ですか?

急速に成長しているAI分野でのキャリアをお探しですか?エキサイティングな機会を提供するAIキャリアのトップ6つを発見してく...

AIニュース

「安全で安心なAIに対する取り組みに基づいて行動する」

「ジェネラティブAIに特化した私たちのバグバウンティプログラムのニュースと、AIの供給チェーンに対するオープンソースセキ...

AIニュース

「チャンドラヤーン3の着陸:AIとセンサーがISROの壮大な月探査を支援」

宇宙探査の魅惑的な広がりの中で、すべてのミッションは未知へのサイコロのような賭けです。インドの国立宇宙機関であるイン...

人工知能

AIパワーを活用した機会の開放-イギリス

Googleの2023年の経済的影響報告書では、AIがイギリスの経済に与える潜在的な影響を理解するために取り組んでいますこの報告...

AIニュース

「Amazon Qをご紹介します:ビジネスの卓越性のためのチャットボットをご紹介します!」

今日の速いビジネスの世界では、効果的なコミュニケーションが成功の鍵となります。AmazonはAmazon Qを導入し、データとのや...