「リヴィールのロジクルが大規模な法的文書からAmazon Comprehendを使用してPIIを検知・削除した方法」

「Amazon Comprehendを用いたリヴィールのロジクルによる大規模な法的文書からのPII検知・削除方法」

今日、個人情報(PII)はどこにでもあります。PIIは電子メール、スラックメッセージ、動画、PDFなどに含まれています。具体的な個人を特定するために使用できるデータや情報を指します。PIIは機密性があり、名前、連絡先情報、識別番号、金融情報、医療情報、生体情報、生年月日など、さまざまな種類の個人データが含まれます。

PIIを見つけて伏せることは、プライバシーの保護、データセキュリティの確保、法令の順守、および顧客や関係者との信頼を維持するために重要です。これは現代のデータ管理とサイバーセキュリティの実践における重要な要素です。しかし、組織内の電子データの海からPIIを見つけることは課題となる場合があります。これらの課題は、膨大な量と種類のデータ、データの断片化、暗号化、データの共有、動的コンテンツ、誤検出と漏検出、文脈理解、法的複雑さ、資源制約、変化するデータ、ユーザー生成コンテンツ、適応型の脅威によって引き起こされます。しかし、PIIを正確に検出して伏せないと、組織には深刻な影響が及ぶ可能性があります。その影響は、法的ペナルティ、訴訟、評判の損害、データ侵害のコスト、監督機関の調査、業務の停止、信頼の低下、制裁などが含まれます。

法務システムでは、訴訟における当事者の主張や防御に関連する特権を持たない情報を入手する権利と提供する義務を規定する法的プロセスです。電子開示としても知られるeDiscoveryは、訴訟または調査の製造要請に応じて、電子的に保存された情報(ESI)の特定、収集、および提出を行う電子的な側面です。法的には、訴訟や調査中にESIを特定、収集、提出する必要があります。組織が訴訟の差し押さえ対応でeDiscoveryに取り組んでいる場合、PIIを誤って共有することに関心があるかもしれません。政府機関、学区、法務専門家など、多くの組織は、大規模なPIIの検出と正確な伏せを行うという課題に直面しています。特に政府グループの一部である場合、情報公開法とデジタルサービス法を通じてPIIを伏せることは、個人のプライバシーの保護、データ保護法の順守、個人情報の盗難の防止、政府やデジタルサービスへの信頼と透明性の維持において重要です。これにより、透明性とプライバシーのバランスが取れ、法的およびセキュリティ上のリスクが軽減されます。

組織は、キーワード検索、パターンマッチング、データ損失防止ツール、機械学習(ML)、メタデータ分析、データ分類ソフトウェア、光学文字認識(OCR)、ドキュメントの指紋認識、および暗号化などの方法を使用してPIIを検索することができます。

現在、RevealのAIパワードeDiscoveryプラットフォームの一部であるLogikcullは、自己サービスソリューションであり、法務専門家が訴訟や調査の一環として電子ドキュメントを処理、レビュー、タグ付け、および提出することができます。このユニークな提供は、弁護士が関連する事案に関する貴重な情報を発見するのに役立ち、コストを削減し、解決を迅速化し、リスクを軽減します。

この投稿では、Revealの専門家が、ドキュメント処理パイプラインでAmazon Comprehendを使用して個別のPIIを検出および伏せる方法を紹介しています。Amazon Comprehendは、文書やテキストの内容に関する洞察を抽出することができる完全に管理され、絶えずトレーニングされる自然言語処理(NLP)サービスです。Amazon Comprehendの機械学習機能を使用して、顧客の電子メール、サポートチケット、製品レビュー、ソーシャルメディアなどでPIIを検出および伏せることができます。

ソリューションの概要

エンジニアリングチームの最大の目標は、顧客の法的文書から数百万のPIIを検出および伏せることです。RevealのLogikcullソリューションを使用して、エンジニアリングチームは2つのプロセス、すなわち第一パスPII検出と第二パスPII検出および伏せを実装しました。この2つのパスソリューションは、ContainsPiiEntitiesおよびDetectPiiEntities APIの使用によって実現されました。

第一パスPII検出

ファーストパスPII検出の目的は、PIIが含まれている可能性のあるドキュメントを見つけることです。

  1. ユーザーは、Logikcullの公開ウェブサイトを介してPIIの検出と削除を行いたいファイルをプロジェクトフォルダにアップロードします。これらのファイルは、オフィスドキュメント、.pdfファイル、メール、またはすべてのサポートされているファイルタイプを含む.zipファイルの形式であることができます。
  2. Logikcullは、これらのプロジェクトフォルダをAmazon Simple Storage Service(Amazon S3)バケットに安全に保存します。その後、ファイルはLogikcullの大規模並列処理パイプラインを経て、Amazon Elastic Compute Cloud(Amazon EC2)上で処理され、メタデータが抽出され、テキスト形式のアーティファクトが生成されます。Logikcullの処理パイプラインは、オーディオやビデオファイルを含むさまざまな形式やファイルのテキスト抽出をサポートしています。
  3. ファイルがテキスト形式で利用可能になったら、Logikcullは入力テキストを英語の言語モデルとともにAmazon Comprehendに渡し、ContainsPiiEntities API呼び出しを行います。Amazon EC2上でホストされる処理パイプラインサーバーは、テキストと言語コードをリクエストパラメータとしてAmazon Comprehend ContainsPiiEntities API呼び出しを行います。 ContainsPiiEntities API呼び出しは、入力テキスト内のPIIの存在を分析し、名前、住所、銀行口座番号、電話番号などの特定されたPIIエンティティタイプのラベルを返します。APIの応答には、Amazon Comprehendが検出精度に割り当てた信頼度スコアも含まれています。信頼度スコアは0から1までの値を持ち、1は100%の信頼度を示します。Logikcullはこの信頼度スコアを使用して、ドキュメントにPII Detectedのタグを割り当てます。Logikcullは信頼度スコアが0.75を超えるドキュメントにのみこのタグを割り当てます。
  4. PII Detectedのタグが付けられたドキュメントは、Logikcullの検索インデックスクラスタに供給され、ユーザーはPIIエンティティを含むドキュメントを素早く特定することができます。

セカンドパスPII検出と削除

ファーストパスPII検出プロセスは、PII情報を含むドキュメントを特定することでデータセットの範囲を絞り込みます。これにより、PII検出プロセスが高速化され、全体的なコストが削減されます。セカンドパスPII検出の目的は、ファーストパスでタグ付けされたドキュメントからPIIの個別のインスタンスを特定し、削除することです。

  1. ユーザーは、Logikcullのウェブサイトを通じて、Logikcullの高度な検索フィルタ機能を使用してPIIを含むドキュメントを検索します。
  2. リクエストは、Amazon EC2上にホストされたLogikcullのアプリケーションサーバーによって処理され、サーバーは検索インデックスクラスタと通信してドキュメントを検索します。
  3. Logikcullのアプリケーションサーバーは、DetectPiiEntities API呼び出しを行うことで、PIIの個別のインスタンスを識別します。サーバーは、テキストと入力ドキュメントの言語を渡すことでAPI呼び出しを行います。 DetectPiiEntities APIアクションは、PIIを含むエンティティのために入力テキストを検査します。各エンティティについて、応答にはエンティティのタイプ、エンティティテキストの開始と終了位置、およびAmazon Comprehendの検出に対する信頼度レベルが提供されます。
  4. ユーザーは、Logikcullのウェブインターフェースを使用して削除したい特定のエンティティを選択します。アプリケーションサーバーはこれらのリクエストをLogikcullの処理パイプラインに送信します。以下のスクリーンショットは、LogikcullのアプリケーションにアップロードされたPDFのものです。以下のスクリーンショットでは、名前、住所、電話番号、メールアドレスなど、異なるPIIエンティティがハイライトされていることがわかります。

  1. PIIの削除は、Logikcullの処理パイプライン内でカスタムのビジネスロジックを使用して安全に適用されます。以下のスクリーンショットから、ユーザーは特定のPIIエンティティタイプまたはすべてのPIIエンティティタイプを選択し、PII情報を一括で削除するための単一のボタンをクリックすることができることがわかります。

結果

RevealのLogikcullテクノロジーは現在、毎週2000万以上のドキュメントを処理しており、ContainsPiiEntities APIを使用して検出範囲を絞り込み、DetectPiiEntities APIを使用してPIIエンティティの個々のインスタンスを顧客に表示しています。

「Amazon Comprehendを使用することで、Logikcullはカスタムビルドされたソリューションが必要とする時間のわずか一部で強力なNLP機能を迅速に展開することができました。」

― Logikcullの製品担当バイスプレジデント、Steve Newhouse氏

結論

Amazon Comprehendを使用することで、RevealのLogikcullテクノロジーはAmazon Comprehendを使用して比較的低コストで大規模なPII検出を実行することができます。 ContainsPiiEntities APIは数百万のドキュメントを初期スキャンするために使用され、DetectPiiEntities APIは数千のドキュメントを詳細に分析し、ドキュメント内の個々のPII要素を特定するために使用されます。

すべてのAmazon Comprehendの機能をご覧ください。機能を試してフィードバックをお送りいただくか、Amazon ComprehendのAWSフォーラムまたは通常のAWSサポート連絡先を介してご意見をお聞かせください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます...

機械学習

RayはNVIDIA AIとの協業により、開発者が製品向けのLLMを構築、調整、トレーニング、スケールアップするのを支援します

大規模言語モデルの開発は、NVIDIAとAnyscaleのコラボレーションにより、超音速の速さに達する予定です。 Anyscaleは、急速に...

機械学習

TensorFlowを使用して責任あるAIを構築する方法は?

イントロダクション 人工知能(AI)は、今週リリースされる新しいAIアプリ、機能、プラットフォームが数百あるほど、前例のな...

AI研究

「この新しいAI研究は、事前学習されたタンパク質言語モデルを幾何学的深層学習ネットワークに統合することで、タンパク質構造解析を進化させます」

科学的な探求には、魅力的で複雑な構造を持つタンパク質による魅力的で不思議な方法で重要な生物学的プロセスを支配する分子...

AIニュース

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

人工知能の絶え間なく進化する世界で、OpenAIは革命的なアップデートを解放しました。それは、私たちが機械とどのようにイン...

機械学習

RAGのNLPにおける検索と生成の統一的な革新的アプローチ

イントロダクション AIの急速に進化する領域に、ゲームチェンジングなイノベーションが登場し、機械が人間の言語と関わる方法...