Amazon DocumentDBを使用して、Amazon SageMaker Canvasでノーコードの機械学習ソリューションを構築してください

『Amazon DocumentDBを活用して、ノーコードで美容とファッションの機械学習ソリューションを作り上げる』

Amazon DocumentDB（MongoDB互換機能あり）とAmazon SageMaker Canvasの統合のローンチをお知らせいたします。これにより、Amazon DocumentDBのお客様はコードを書かずに生成的AIおよび機械学習（ML）ソリューションを構築し使用できるようになります。 Amazon DocumentDBは、インフラストラクチャーを管理せずにほぼすべての規模でクリティカルなドキュメントワークロードを簡単かつコスト効果的に実行することができる、フルマネージドのネイティブJSONドキュメントデータベースです。 Amazon SageMaker Canvasは、既存のモデルを含む準備済みモデルや、データの準備、カスタムモデルの構築と展開が可能なノーコードのMLワークスペースです。

本記事では、Amazon DocumentDBに格納されたデータをSageMaker Canvasに持ち込んで、予測分析のためのMLモデルを構築する方法について説明します。データパイプラインを作成および維持する必要がなく、Amazon DocumentDBに格納された非構造化データでMLモデルを活用することができます。

ソリューションの概要

飲食配達会社のビジネスアナリストの立場を想定しましょう。モバイルアプリでレストランに関する情報をAmazon DocumentDBに保存しているため、スケーラビリティと柔軟なスキーマの特性があります。新しいレストランの評価を予測するための洞察を集め、MLモデルを構築したいと思っていますが、非構造化データの分析は難しいと感じています。これらの目標を達成するためにはデータエンジニアリングチームやデータサイエンスチームに頼る必要があります。

この新しい統合により、Amazon DocumentDBのデータをSageMaker Canvasに持ち込み、即座にデータを準備して分析し、MLのためのモデルを構築することが簡単になります。さらに、SageMaker Canvasは、高品質なモデルの構築と予測生成におけるMLの専門知識への依存を排除します。

以下の手順で、Amazon DocumentDBのデータを使用してSageMaker CanvasでMLモデルを構築する方法を実演します：

SageMaker CanvasでAmazon DocumentDBコネクタを作成します。
生成的AIを使用してデータを分析します。
機械学習用にデータを準備します。
モデルを構築し、予測を生成します。

前提条件

このソリューションを実装するには、以下の前提条件を満たしてください：

必要な権限を持ったAWS Identity and Access Management（IAM）ユーザーを使用したAWS Cloudの管理アクセス権限を持っています。
AWS CloudFormationを使用して環境をセットアップし、次のいずれかのオプションを使用して作業を完了してください：
1. 新しいVPCにCloudFormationテンプレートをデプロイ – このオプションでは、VPC、プライベートサブネット、セキュリティグループ、IAMの実行ロール、Amazon Cloud9、必要なVPCエンドポイント、およびSageMakerドメインからなる新しいAWS環境が構築されます。それから、この新しいVPCにAmazon DocumentDBがデプロイされます。テンプレートをダウンロードするか、スタックを起動を選択して、CloudFormationスタックをクイックに起動できます：
2. 既存のVPCにCloudFormationテンプレートをデプロイ – このオプションでは、既存のVPC内に必要なVPCエンドポイント、IAMの実行ロール、SageMakerドメインを作成します。テンプレートをダウンロードするか、スタックを起動を選択して、CloudFormationスタックをクイックに起動できます：

新しいSageMakerドメインを作成する場合、Amazon DocumentDBにコネクタを追加するためには、ドメインをインターネット非対応のプライベートVPCに設定する必要があります。詳細については、インターネット非対応のVPCでAmazon SageMaker Canvasを設定するを参照してください。

チュートリアルに従って、サンプルのレストランデータをAmazon DocumentDBにロードします。
Amazon Bedrockとその中にあるAnthropic Claudeモデルへのアクセスを追加してください。詳細については、モデルへのアクセスを追加するを参照してください。

SageMaker CanvasでAmazon DocumentDBコネクタを作成する

SageMakerドメインを作成した後、次の手順を完了します：

Amazon DocumentDBコンソールで、ナビゲーションペインでNo-code機械学習を選択します。
ドメインとプロファイルの選択で、SageMakerドメインとユーザープロファイルを選択します。
キャンバスを開始を選択して、新しいタブでSageMaker Canvasを起動します。

SageMaker Canvasの読み込みが完了すると、データフロータブに移動します。

作成を選択して、新しいデータフローを作成します。
データフローの名前を入力し、作成を選択します。
データのインポートを選択して、データセットタイプにTabularを選択して、新しいAmazon DocumentDB接続を追加します。
インポートデータページで、データソースでDocumentDBを選択し、接続の追加を選択します。
demoなどの接続名を入力し、希望のAmazon DocumentDBクラスタを選択します。

SageMaker Canvasは、SageMakerドメインと同じVPC内のクラスタをドロップダウンメニューに自動的に表示します。

ユーザー名、パスワード、およびデータベース名を入力します。
最後に、読み取り設定を選択します。

主要なインスタンスのパフォーマンスを保護するため、SageMaker CanvasはSecondaryをデフォルトに設定しています。つまり、セカンダリインスタンスからのみ読み取ります。読み取り設定がSecondary preferredの場合、SageMaker Canvasは利用可能なセカンダリインスタンスから読み取りますが、セカンダリインスタンスが利用できない場合はプライマリインスタンスから読み取ります。Amazon DocumentDB接続の設定方法については、AWSに保存されたデータベースに接続するを参照してください。

接続の追加を選択します。

接続が成功した場合、Amazon DocumentDBデータベースのコレクションがテーブルとして表示されます。

選んだテーブルを空のキャンバスにドラッグします。この投稿では、レストランのデータを追加します。

最初の100行がプレビューとして表示されます。

データの分析と準備を開始するには、データのインポートを選択します。
データセットの名前を入力し、データのインポートを選択します。

生成AIを使用してデータを分析する

次に、データの洞察を得てパターンを探します。SageMaker Canvasでは、データの分析と準備のための自然言語インターフェースが提供されています。データタブが読み込まれたら、以下の手順でデータとの対話を開始できます：

データ準備のためのチャットを選択します。
以下のスクリーンショットに表示されているサンプルのような質問をすることで、データに関する洞察を得ることができます。

データの探索や準備に自然言語を使用する方法については、Amazon SageMaker Canvasの新しい機能で自然言語を使ってデータを探索および準備する方法を参照してください。

次に、SageMaker Canvasのデータ品質と洞察レポートを使用して、より詳細なデータ品質を把握します。このレポートでは、データの品質を自動的に評価し、異常を検出します。

分析タブで、データ品質と洞察レポートを選択します。
ターゲット列にrating、問題のタイプに回帰を選択し、作成を選択します。

これにより、モデルのトレーニングをシミュレーションし、機械学習のためにデータを改善する方法に関する洞察が提供されます。完全なレポートは数分で生成されます。

私たちのレポートでは、ターゲットの2.47%の行に欠損値があることが分かりました。次のステップでそれに対処します。さらに、分析ではaddress line 2、name、およびtype_of_foodの特徴がデータ内で最も予測力があることが示されています。これは、場所や料理のような基本的なレストラン情報が評価に大きな影響を与える可能性があることを示しています。

機械学習のためのデータの準備

SageMaker Canvasでは、300以上の組み込みの変換を使用してインポートしたデータを準備することができます。SageMaker Canvasの変換機能についての詳細は、高度な変換を使ったデータの機械学習のための準備を参照してください。データをトレーニング用に準備するためにいくつかの変換を追加しましょう。

ページの上部にあるデータフローの名前を選択して、データフローページに戻ります。
Data typesの横のプラス記号を選択し、Add transformを選択します。
Add stepを選択します。
address line 2列をcitiesにリネームしましょう。
1. Manage columnsを選択します。
2. Rename columnをTransformに選択します。
3. Input columnでaddress line 2を選択し、New nameにcitiesを入力してAddを選択します。
さらに、いくつかの不要な列を削除しましょう。
1. 新しい変換を追加します。
2. TransformでDrop columnを選択します。
3. Columns to dropでURLとrestaurant_idを選択します。
4. Addを選択します。
rating特徴列にはいくつかの欠損値がありますので、この列の欠損行を平均値で補完しましょう。
1. 新しい変換を追加します。
2. TransformでImputeを選択します。
3. Column typeでNumericを選択します。
4. Input columnsでrating列
  
  モデルの構築と予測の生成
  
  データを変換したので、レストランの評価を予測するための数値MLモデルをトレーニングしましょう。
  1. モデルの作成を選択します。
  2. データセット名に、データセットのエクスポートのための名前を入力します。
  3. エクスポートを選択し、変換されたデータのエクスポートが完了するのを待ちます。
  4. ページの左下隅にあるモデルの作成リンクを選択します。
  また、ページの左側にあるData Wrangler機能からデータセットを選択することもできます。
  1. モデル名を入力します。
  2. 予測分析を選択し、作成を選択します。
  3. ターゲットカラムとしてrating_avg_filledを選択します。
  SageMaker Canvasは自動的に適切なモデルタイプを選択します。
  1. データ品質の問題がないかを確認するために、モデルのプレビューを選択します。
  2. モデルを構築するためにクイックビルドを選択します。
  モデルの作成には約2〜15分かかります。
  
  モデルのトレーニングが終了した後、モデルのステータスを表示することができます。私たちのモデルは、RSMEが0.422であり、モデルがレストランの評価を実際の値から+/- 0.422以内で予測することが多いことを意味し、1から6の評価スケールにおける堅実な近似です。
  1. 最後に、予測タブに移動してサンプル予測を生成することができます。
  クリーンアップ
  
  将来の請求を回避するために、この投稿の指示に従って作成したリソースを削除してください。 SageMaker Canvasはセッションの期間中において料金が請求されますので、使用していない場合はSageMaker Canvasからログアウトすることをお勧めします。詳細は、Amazon SageMaker Canvasからのログアウトを参照してください。
  
  結論
  
  この投稿では、Amazon DocumentDBに保存されたデータを使用してSageMaker Canvasを使用した生成型AIとMLの方法について説明しました。この例では、サンプルのレストランデータセットを使用して、アナリストが迅速に高品質なMLモデルを構築する方法を示しました。
  
  Amazon DocumentDBからデータをインポートしてSageMaker CanvasでMLモデルを構築する手順を示しました。この全プロセスは、1行のコードを書かずにビジュアルインターフェースを介して完了しました。
  
  低コード/ノーコードのMLの旅を始めるには、Amazon SageMaker Canvasを参照してください。