Amazon SageMaker Canvas を使用して、更新されたデータセットを使用して ML モデルを再トレーニングし、一括予測を自動化します
Using Amazon SageMaker Canvas, retrain the ML model with the updated dataset and automate batch predictions.
Amazon SageMaker Canvasでデータセットを更新して機械学習(ML)モデルを再学習し、バッチ予測ワークフローを自動化することができるようになりました。これにより、モデルのパフォーマンスを常に学習し改善することが容易になり、効率を高めることができます。MLモデルの効果は、トレーニングに使用されるデータの品質と関連性に依存します。時間が経つにつれ、データ内の基盤となるパターン、トレンド、および分布が変化する可能性があります。データセットを更新することで、モデルが最新かつ代表的なデータから学習することが保証され、正確な予測をする能力が向上します。Canvasは、自動的にまたは手動でデータセットを更新することをサポートし、トレーニングするMLモデルの表形式、画像、ドキュメントデータセットの最新バージョンを使用することができます。
モデルをトレーニングした後、それを予測で実行したい場合があります。MLモデルでバッチ予測を実行すると、1つずつ予測するのではなく、複数のデータポイントを同時に処理することができます。このプロセスを自動化することにより、効率性、スケーラビリティ、およびタイムリーな意思決定が提供されます。予測が生成された後、それらはさらに分析、集計、または可視化され、予測された結果に基づいて洞察を得たり、パターンを特定したり、情報に基づいた意思決定を行うことができます。Canvasは、自動バッチ予測構成の設定とデータセットの関連付けをサポートしています。関連するデータセットが手動またはスケジュールによって更新されると、対応するモデルで自動的にバッチ予測ワークフローがトリガーされます。予測の結果はインラインで表示されるか、後でダウンロードして確認することができます。
この投稿では、Canvasで更新されたデータセットを使用してMLモデルを再トレーニングし、バッチ予測を自動化する方法を説明します。
解決策の概要
私たちのユースケースでは、ECサイトのビジネスアナリストの役割を演じます。製品チームは、ショッピングの購入決定に影響を与える最も重要なメトリックを決定するように要求しています。これに対応して、同社の顧客Webサイトオンラインセッションデータセットを使用してCanvasでMLモデルをトレーニングします。モデルのパフォーマンスを評価し、必要に応じて、既存のモデルのパフォーマンスが改善されるかどうかを確認するために、追加データでモデルを再トレーニングします。そのために、Canvasのオートアップデートデータセット機能を使用して、最新バージョンのトレーニングデータセットで既存のMLモデルを再トレーニングします。その後、パフォーマンスの改善が見られたモデルバージョンで自動バッチ予測ワークフローを設定し、予測結果を表示します。
ワークフローの手順は次のとおりです。
- Amazon Simple Storage Service(Amazon S3)にダウンロードした顧客Webサイトオンラインセッションデータをアップロードし、新しいトレーニングデータセットCanvasを作成します。サポートされているすべてのデータソースについては、Amazon SageMaker Canvasでのデータのインポートを参照してください。
- MLモデルを構築し、パフォーマンスメトリックを分析します。CanvasでカスタムMLモデルを構築し、モデルのパフォーマンスを評価する方法については、次の手順を参照してください。
- 既存のトレーニングデータセットで自動更新を設定し、このデータセットをバックアップするAmazon S3ロケーションに新しいデータをアップロードします。完了すると、新しいデータセットバージョンが作成されます。
- 最新バージョンのデータセットを使用してMLモデルを再トレーニングし、そのパフォーマンスを分析します。
- パフォーマンスの改善が見られたモデルバージョンで自動バッチ予測を設定し、予測結果を表示します。
これらの手順をCanvasで1行のコードを書かずに実行できます。
データの概要
データセットには、12,330のセッションに属する特徴ベクトルが含まれています。データセットは、1年間の期間にそれぞれ別のユーザーに属するように構成されているため、特定のキャンペーン、特別な日、ユーザープロファイル、または期間に傾向があることを避けるためです。以下の表は、データスキーマを示しています。
列名 | データ型 | 説明 |
Administrative |
数値 | ユーザーアカウント管理に関連するアクティビティのためにユーザーが訪問したページ数。 |
Administrative_Duration |
数値 | このカテゴリのページで費やした時間。 |
Informational |
数値 | ユーザーが訪問したこのタイプ(情報)のページ数。 |
Information
|