新しいAmazon KendraのWebクローラーを使用して、ウェブにクロールされたコンテンツをインデックス化します

「ウェブ上のコンテンツをインデックス化するために新しいAmazon Kendraのウェブクローラーを活用しよう!」

Amazon Kendraは、機械学習(ML)によってパワードされた高精度かつ使いやすいインテリジェントな検索サービスです。Amazon Kendraには、コンテンツのインジェストとインデックス作成のプロセスを簡素化するためのデータソースコネクタのスイートが提供されています。

組織内の貴重なデータは、構造化および非構造化のリポジトリに保存されています。エンタープライズ検索ソリューションは、企業内のさまざまなデータソースからのコンテンツのインデックス作成プロセスを簡素化し、完全に管理されたエクスペリエンスを提供することができる必要があります。

そのような非構造化データリポジトリの1つが、内部および外部のウェブサイトです。ウェブサイトのデータに基づいてニュースフィードを作成したり、言語の使用を分析したり、ウェブサイトデータに基づいて質問に答えるためのボットを作成するために、サイトをクロールする必要がある場合があります。

私たちは、内部および外部のウェブサイトに保存されたコンテンツから検索したり、チャットボットを作成したりするために、新しいAmazon Kendra Web Crawlerを使用できることをお知らせいたします。この記事では、ウェブサイトに保存された情報をインデックス化し、Amazon Kendraのインテリジェント検索を使用して、内部および外部のウェブサイトに保存されたコンテンツから回答を検索する方法を紹介します。また、MLパワードのインテリジェント検索は、キーワード検索があまり効果的でない自然言語のナラティブコンテンツを持つ非構造化ドキュメントから、質問に対する正確な回答を提供することができます。

Web Crawlerには、次の新機能があります:

  • Basic、NTLM/Kerberos、Form、およびSAML認証のサポート
  • 100のシードURLを指定し、接続構成をAmazon Simple Storage Service(Amazon S3)に保存する機能
  • プロキシとプロキシ資格情報の提供機能を備えたウェブおよびインターネットプロキシのサポート
  • JavaScriptを含むウェブサイトなどのダイナミックコンテンツのクロールのサポート
  • フィールドマッピングと正規表現フィルタリングの機能

ソリューションの概要

Amazon Kendraを使用すると、ドキュメントリポジトリ全体で検索するための中央の場所を提供するために、複数のデータソースを設定できます。このソリューションでは、Amazon Kendra Web Crawlerを使用してクロールされたウェブサイトをインデックス化する方法をデモンストレーションします。ソリューションは以下の手順で構成されています:

  1. ウェブサイトの認証メカニズム(必要な場合)を選択し、詳細をAWS Secrets Managerに保存します。
  2. Amazon Kendraインデックスを作成します。
  3. Amazon Kendraコンソールを介してWeb CrawlerデータソースV2を作成します。
  4. ソリューションをテストするためのサンプルクエリを実行します。

前提条件

Amazon Kendra Web Crawlerを試すためには、次のものが必要です:

  • クロール対象のウェブサイト
  • AWSアカウント(AWS Identity and Access Management(IAM)ロールとポリシーを作成するための特権を持つ)
  • AWSの基本的な知識

認証の詳細を収集する

保護された安全なウェブサイトの場合、次の認証タイプと規格がサポートされています:

  • ベーシック
  • NTLM/Kerberos
  • フォーム認証
  • SAML

データソースの設定時には、認証情報が必要です。

ベーシック認証またはNTLM認証の場合、Secrets Managerのシークレット、ユーザー名、パスワードを提供する必要があります。secrets manager basic auth

フォーム認証とSAML認証では、次のスクリーンショットに示すように、追加の情報が必要です。「ユーザー名ボタンXpath」などの一部のフィールドはオプションであり、クロール対象のサイトがユーザー名の入力後にボタンを使用するかどうかによるものです。また、ユーザー名およびパスワードフィールドおよび送信ボタンのXpathを決定する方法を知る必要があります。

secrets manager saml

Amazon Kendraインデックスを作成する

Amazon Kendraインデックスを作成するためには、以下の手順を完了してください:

  1. Amazon Kendraコンソールで、インデックスを作成を選択してください。kendra
  2. インデックス名に、インデックスの名前(例: Webクローラー)を入力してください。
  3. オプションの説明を入力してください。
  4. ロール名に、IAMロール名を入力してください。
  5. オプションの暗号化設定とタグを構成してください。
  6. 次へを選択してください。index details
  7. ユーザーアクセスコントロールを構成セクションでは、デフォルトの設定のままにして、次へを選択してください。user access control
  8. プロビジョニングエディションで、開発者エディションを選択し、次へを選択してください。provisioning edition
  9. 確認ページで、作成を選択してください。

これにより、IAMロールが作成および展開され、最大30分かかる可能性があるAmazon Kendraインデックスが作成されます。

kendra index

Amazon Kendra Webクローラーデータソースを作成する

データソースを作成するためには、以下の手順を完了してください:

  1. Amazon Kendraコンソールで、ナビゲーションパネルでデータソースを選択してください。
  2. Webクローラーコネクター V2.0タイルを見つけ、コネクタを追加を選択してください。webcrawler connector
  3. データソース名に、名前(例: crawl-fda)を入力してください。
  4. オプションの説明を入力してください。
  5. 次へを選択してください。data source details
  6. ソースセクションで、ソースURLを選択し、URLを入力してください。この投稿では、https://www.fda.gov/を例のソースURLとして使用します。
  7. 認証セクションで、クロールしたいサイトに基づいて適切な認証を選択してください。この投稿では、パブリックサイトで認証が不要なので、認証なしを選択します。
  8. Webプロキシセクションでは、Secrets Managerのシークレットを指定することができます(必要な場合)。
    1. 作成して新しいシークレットを追加を選択してください。
    2. 以前に収集した認証の詳細を入力してください。
    3. 保存を選択してください。
  9. IAMロールセクションで、新しいロールを作成を選択し、名前を入力してください(例: AmazonKendra-Webクローラーデータソース-ロール)。
  10. 次へを選択してください。access and security
  11. 同期範囲セクションでは、クロール対象のサイトに基づいて同期設定を構成してください。この投稿では、デフォルトの設定をそのままにしておきます。
  12. 同期モードで、インデックスの更新方法を選択してください。この投稿では、フル同期を選択します。
  13. 同期実行スケジュールで、オンデマンドで実行を選択してください。
  14. 次へを選択してください。sync setting
  15. オプションで、フィールドマッピングを設定することもできます。この投稿では、現時点ではデフォルトの設定を保持します。

フィールドマッピングは、フィールド名をユーザーフレンドリーな値に置き換え、組織の用語に合うようにする有用な演習です。

  1. 次へを選択します。フィールドマッピング
  2. データソースの追加を選択します。データソースの追加
  3. データソースの詳細ページで、今すぐ同期を選択してデータソースを同期します。同期開始
  4. 同期の完了を待ちます。同期完了

認証されたウェブサイトの例

認証を必要とするサイトをクロールする場合、前の手順で認証セクションで認証の詳細を指定する必要があります。以下は、フォーム認証を選択した場合の例です。

  1. ソースセクションでソースURLを選択し、URLを入力します。この例では、https://accounts.autodesk.comを使用しています。

  2. 認証セクションでフォーム認証を選択します。

  3. Webプロキシセクションで、Secrets Managerのシークレットを指定します。認証なし以外のオプションを選択する場合、これが必要です。

    1. 作成して新しいシークレットを追加を選択します。
    2. 以前に収集した認証の詳細を入力します。
    3. 保存を選択します。
    Secrets Managerのシークレットの作成

ソリューションのテスト

Amazon Kendraのインデックスにサイトのコンテンツを取り込んだので、いくつかのクエリをテストできます。

  1. インデックスに移動し、インデックスされたコンテンツの検索を選択します。
  2. サンプルの検索クエリを入力し、検索結果をテストします(クエリはクロールしたサイトの内容と入力したクエリに応じて異なります)。検索結果

おめでとうございます!Amazon Kendraを使用して、クロールしたサイトのインデックスから回答や洞察を表示することに成功しました。

クリーンアップ

将来の費用を回避するために、このソリューションの一部として作成したリソースをクリーンアップします。Amazon Kendraインデックスを作成した場合は、削除します。Amazon Kendra Web Crawler V2を使用して新しいデータソースのみを追加した場合は、そのデータソースを削除してください。

結論

新しいAmazon Kendra Web Crawler V2を使用することで、組織はパブリックまたは認証の後ろにあるどんなウェブサイトでもクロールし、Amazon Kendraの知能検索を活用することができます。

これらの可能性やその他については、Amazon Kendra 開発者ガイドを参照してください。データをインジェストする際、メタデータやコンテンツを作成、変更、削除する方法についての詳細は、データインジェスト中のドキュメントの情報豊かさAmazon Kendraにおけるカスタムドキュメントエンリッチメントによる検索エクスペリエンスの向上を参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...

データサイエンス

「衛星データ、山火事、そしてAI:気候の課題に立ち向かうワイン産業の保護」

「オーストラリアは、世界で5番目に大きなワイン輸出国としてランク付けされており、ワインの世界で重要な位置を占めています...

機械学習

AIがYouTubeの多言語吹替を開始します

世界最大の動画共有プラットフォームであるYouTubeは、AI技術の統合により、コンテンツクリエイターが世界中の観客と接触する...

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

人工知能

「6週間でCassandraにベクトル検索を追加するのにAIがどのように役立ったのか」

「DataStaxは、この基礎となるAI機能を追加するために迅速に動かなければなりませんでしたChatGPT、Copilot、および他のAIツ...

AI研究

ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺...