新しいAmazon KendraのWebクローラーを使用して、ウェブにクロールされたコンテンツをインデックス化します
「ウェブ上のコンテンツをインデックス化するために新しいAmazon Kendraのウェブクローラーを活用しよう!」
Amazon Kendraは、機械学習(ML)によってパワードされた高精度かつ使いやすいインテリジェントな検索サービスです。Amazon Kendraには、コンテンツのインジェストとインデックス作成のプロセスを簡素化するためのデータソースコネクタのスイートが提供されています。
組織内の貴重なデータは、構造化および非構造化のリポジトリに保存されています。エンタープライズ検索ソリューションは、企業内のさまざまなデータソースからのコンテンツのインデックス作成プロセスを簡素化し、完全に管理されたエクスペリエンスを提供することができる必要があります。
そのような非構造化データリポジトリの1つが、内部および外部のウェブサイトです。ウェブサイトのデータに基づいてニュースフィードを作成したり、言語の使用を分析したり、ウェブサイトデータに基づいて質問に答えるためのボットを作成するために、サイトをクロールする必要がある場合があります。
私たちは、内部および外部のウェブサイトに保存されたコンテンツから検索したり、チャットボットを作成したりするために、新しいAmazon Kendra Web Crawlerを使用できることをお知らせいたします。この記事では、ウェブサイトに保存された情報をインデックス化し、Amazon Kendraのインテリジェント検索を使用して、内部および外部のウェブサイトに保存されたコンテンツから回答を検索する方法を紹介します。また、MLパワードのインテリジェント検索は、キーワード検索があまり効果的でない自然言語のナラティブコンテンツを持つ非構造化ドキュメントから、質問に対する正確な回答を提供することができます。
- 「機械学習とAIが偽のレビューを迅速に検出する方法」
- ビジネス変革を加速させるクラウドネイティブ統合プラットフォーム
- LLM応募を強化するための最良のツールは、RAGとFinetuningのどちらですか?
Web Crawlerには、次の新機能があります:
- Basic、NTLM/Kerberos、Form、およびSAML認証のサポート
- 100のシードURLを指定し、接続構成をAmazon Simple Storage Service(Amazon S3)に保存する機能
- プロキシとプロキシ資格情報の提供機能を備えたウェブおよびインターネットプロキシのサポート
- JavaScriptを含むウェブサイトなどのダイナミックコンテンツのクロールのサポート
- フィールドマッピングと正規表現フィルタリングの機能
ソリューションの概要
Amazon Kendraを使用すると、ドキュメントリポジトリ全体で検索するための中央の場所を提供するために、複数のデータソースを設定できます。このソリューションでは、Amazon Kendra Web Crawlerを使用してクロールされたウェブサイトをインデックス化する方法をデモンストレーションします。ソリューションは以下の手順で構成されています:
- ウェブサイトの認証メカニズム(必要な場合)を選択し、詳細をAWS Secrets Managerに保存します。
- Amazon Kendraインデックスを作成します。
- Amazon Kendraコンソールを介してWeb CrawlerデータソースV2を作成します。
- ソリューションをテストするためのサンプルクエリを実行します。
前提条件
Amazon Kendra Web Crawlerを試すためには、次のものが必要です:
- クロール対象のウェブサイト
- AWSアカウント(AWS Identity and Access Management(IAM)ロールとポリシーを作成するための特権を持つ)
- AWSの基本的な知識
認証の詳細を収集する
保護された安全なウェブサイトの場合、次の認証タイプと規格がサポートされています:
- ベーシック
- NTLM/Kerberos
- フォーム認証
- SAML
データソースの設定時には、認証情報が必要です。
ベーシック認証またはNTLM認証の場合、Secrets Managerのシークレット、ユーザー名、パスワードを提供する必要があります。
フォーム認証とSAML認証では、次のスクリーンショットに示すように、追加の情報が必要です。「ユーザー名ボタンXpath」などの一部のフィールドはオプションであり、クロール対象のサイトがユーザー名の入力後にボタンを使用するかどうかによるものです。また、ユーザー名およびパスワードフィールドおよび送信ボタンのXpathを決定する方法を知る必要があります。
Amazon Kendraインデックスを作成する
Amazon Kendraインデックスを作成するためには、以下の手順を完了してください:
- Amazon Kendraコンソールで、インデックスを作成を選択してください。
- インデックス名に、インデックスの名前(例: Webクローラー)を入力してください。
- オプションの説明を入力してください。
- ロール名に、IAMロール名を入力してください。
- オプションの暗号化設定とタグを構成してください。
- 次へを選択してください。
- ユーザーアクセスコントロールを構成セクションでは、デフォルトの設定のままにして、次へを選択してください。
- プロビジョニングエディションで、開発者エディションを選択し、次へを選択してください。
- 確認ページで、作成を選択してください。
これにより、IAMロールが作成および展開され、最大30分かかる可能性があるAmazon Kendraインデックスが作成されます。
Amazon Kendra Webクローラーデータソースを作成する
データソースを作成するためには、以下の手順を完了してください:
- Amazon Kendraコンソールで、ナビゲーションパネルでデータソースを選択してください。
- Webクローラーコネクター V2.0タイルを見つけ、コネクタを追加を選択してください。
- データソース名に、名前(例: crawl-fda)を入力してください。
- オプションの説明を入力してください。
- 次へを選択してください。
- ソースセクションで、ソースURLを選択し、URLを入力してください。この投稿では、https://www.fda.gov/を例のソースURLとして使用します。
- 認証セクションで、クロールしたいサイトに基づいて適切な認証を選択してください。この投稿では、パブリックサイトで認証が不要なので、認証なしを選択します。
- Webプロキシセクションでは、Secrets Managerのシークレットを指定することができます(必要な場合)。
- 作成して新しいシークレットを追加を選択してください。
- 以前に収集した認証の詳細を入力してください。
- 保存を選択してください。
- IAMロールセクションで、新しいロールを作成を選択し、名前を入力してください(例:
AmazonKendra-Webクローラーデータソース-ロール
)。 - 次へを選択してください。
- 同期範囲セクションでは、クロール対象のサイトに基づいて同期設定を構成してください。この投稿では、デフォルトの設定をそのままにしておきます。
- 同期モードで、インデックスの更新方法を選択してください。この投稿では、フル同期を選択します。
- 同期実行スケジュールで、オンデマンドで実行を選択してください。
- 次へを選択してください。
- オプションで、フィールドマッピングを設定することもできます。この投稿では、現時点ではデフォルトの設定を保持します。
フィールドマッピングは、フィールド名をユーザーフレンドリーな値に置き換え、組織の用語に合うようにする有用な演習です。
- 次へを選択します。
- データソースの追加を選択します。
- データソースの詳細ページで、今すぐ同期を選択してデータソースを同期します。
- 同期の完了を待ちます。
認証されたウェブサイトの例
認証を必要とするサイトをクロールする場合、前の手順で認証セクションで認証の詳細を指定する必要があります。以下は、フォーム認証を選択した場合の例です。
-
ソースセクションでソースURLを選択し、URLを入力します。この例では、https://accounts.autodesk.comを使用しています。
-
認証セクションでフォーム認証を選択します。
-
Webプロキシセクションで、Secrets Managerのシークレットを指定します。認証なし以外のオプションを選択する場合、これが必要です。
- 作成して新しいシークレットを追加を選択します。
- 以前に収集した認証の詳細を入力します。
- 保存を選択します。
ソリューションのテスト
Amazon Kendraのインデックスにサイトのコンテンツを取り込んだので、いくつかのクエリをテストできます。
- インデックスに移動し、インデックスされたコンテンツの検索を選択します。
- サンプルの検索クエリを入力し、検索結果をテストします(クエリはクロールしたサイトの内容と入力したクエリに応じて異なります)。
おめでとうございます!Amazon Kendraを使用して、クロールしたサイトのインデックスから回答や洞察を表示することに成功しました。
クリーンアップ
将来の費用を回避するために、このソリューションの一部として作成したリソースをクリーンアップします。Amazon Kendraインデックスを作成した場合は、削除します。Amazon Kendra Web Crawler V2を使用して新しいデータソースのみを追加した場合は、そのデータソースを削除してください。
結論
新しいAmazon Kendra Web Crawler V2を使用することで、組織はパブリックまたは認証の後ろにあるどんなウェブサイトでもクロールし、Amazon Kendraの知能検索を活用することができます。
これらの可能性やその他については、Amazon Kendra 開発者ガイドを参照してください。データをインジェストする際、メタデータやコンテンツを作成、変更、削除する方法についての詳細は、データインジェスト中のドキュメントの情報豊かさとAmazon Kendraにおけるカスタムドキュメントエンリッチメントによる検索エクスペリエンスの向上を参照してください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「LLaMA-v2-Chat対アルパカ:どのAIモデルを使用するべきですか?」
- 「MLOpsを活用した顧客離反予測プロジェクト」
- 「AIの潜在能力解放:クラウドGPUの台頭」
- 「自然言語処理の技術比較:RNN、トランスフォーマー、BERT」
- 「深層学習による遺伝子制御の解明:オルタナティブスプライシングの理解に向けた新たなAIアプローチ」
- ‘LinkedInの仕事検索機能を支える埋め込みアーキテクチャの内部’
- Mistral-7B-v0.1をご紹介します:新しい大型言語モデルの登場’ (Misutoraru 7B v0.1 wo goshōkai shimasu Atarashii ōgata gengo moderu no tōjō)