「MongoDBの時系列コレクションとAmazon SageMaker Canvasで洞察力の向上を加速する」

「MongoDBの時系列コレクションとAmazon SageMaker Canvasを活用して洞察力の向上を加速する方法」

この記事は、MongoDBのBabu Srinivasanと共同執筆したゲスト投稿です。

現代の急速なビジネス環境において、産業が進化する中でリアルタイムの予測ができないことは、正確でタイムリーな情報に依存する産業にとって重要な課題を提起します。様々な産業でリアルタイムの予測ができないことは、意思決定や業務効率に大きな影響を与えるビジネス上の課題を提起します。リアルタイムの洞察がないと、企業は動的な市場状況に適応できず、顧客の需要を正確に予測し、在庫レベルを最適化し、積極的な戦略的な意思決定を行うことが困難です。金融、小売業、サプライチェーン管理、物流などの産業は、機会の逸失、コストの増加、効率的なリソース配分の不備、および顧客の期待に応えることができないリスクを抱えています。これらの課題を探求することで、組織はリアルタイムの予測の重要性を認識し、これらの障害を乗り越えるための革新的なソリューションを探索することができます。これにより、組織は競争力を維持し、情報に基づいた意思決定を行い、現代の急速なビジネス環境で繁栄することができます。

MongoDBのネイティブのタイムシリーズデータの潜在能力を活用し、Amazon SageMaker Canvasの力と統合することで、組織はこれらの課題を克服し、新たな柔軟性のレベルを開放することができます。MongoDBの堅牢なタイムシリーズデータ管理により、リアルタイムで大量のタイムシリーズデータを格納および抽出できる一方、高度な機械学習アルゴリズムと予測能力により、SageMaker Canvasで正確で動的な予測モデルを提供できます。

この記事では、MongoDBのタイムシリーズデータとSageMaker Canvasの潜在能力について探求します。

MongoDB Atlas

MongoDB Atlasは、クラウド上でのMongoDBデータベースの展開とスケーリングを簡素化するための完全管理型の開発者データプラットフォームです。これは、完全に管理されたデータベースを提供し、組み込みの全文検索およびベクトル検索ジオスペーシャルクエリのサポート、チャート、および効率的なタイムシリーズの格納とクエリ能力のネイティブサポートを提供します。MongoDB Atlasは自動のシャーディング、水平スケーラビリティ、および高容量データの効率的なインデックス作成も提供します。これらの中で、ネイティブのタイムシリーズの機能は際立った特徴であり、ビジネスクリティカルなアプリケーションデータ、テレメトリ、サーバーログなどの大量のタイムシリーズデータを管理するのに理想的です。効率的なクエリ、集計、および分析により、ビジネスはタイムスタンプ付きデータから価値ある洞察を抽出できます。これらの機能を使用することで、ビジネスは効率的にタイムシリーズデータを格納、管理、分析し、データに基づく意思決定を行い、競争力を獲得することができます。

Amazon SageMaker Canvas

Amazon SageMaker Canvasは、ビジネスアナリストやデータサイエンティストが、MLの経験がなく、一行のコードを書く必要もなく、カスタムのMLモデルを構築および展開できるビジュアルな機械学習(ML)サービスです。SageMaker Canvasは、タイムシリーズの予測を含む多数のユースケースをサポートし、ビジネスが将来の需要、販売、リソース要件、およびその他のタイムシリーズデータを正確に予測することを可能にします。このサービスは、複雑なデータパターンを処理するためのディープラーニングの技術を使用し、少ない過去のデータでも正確な予測を生成することができます。Amazon SageMaker Canvasの機能を使用することで、ビジネスは情報に基づいた意思決定を行い、在庫レベルを最適化し、業務効率を向上させ、顧客満足度を向上させることができます。

SageMaker CanvasのUIを使用すると、クラウドやオンプレミスのデータソースをシームレスに統合し、データセットを容易にマージし、正確なモデルをトレーニングし、出現データを使用して予測を行うことができます。すべてにおいてコーディング不要です。自動化されたワークフローやアプリへの直接のMLモデル統合が必要な場合、Canvasの予測機能はAPIを介してアクセスできます。

ソリューションの概要

ユーザーはトランザクションの時系列データをMongoDB Atlasに保持します。Atlas Data Federationを介して、データがAmazon S3バケットに抽出されます。Amazon SageMaker Canvasはデータにアクセスしてモデルを構築し、予測を作成します。予測の結果はS3バケットに保存されます。MongoDB Data Federationサービスを使用して、予測はMongoDB Chartsを介して視覚的に表示されます。

以下の図は提案されたソリューションアーキテクチャを示しています。

前提条件

このソリューションでは、時系列データを保存するためにMongoDB Atlas、モデルのトレーニングと予測の生成にAmazon SageMaker Canvas、MongoDB Atlasから抽出されたデータを保存するためにAmazon S3を使用します。

次の前提条件を満たしていることを確認してください:

MongoDB Atlasクラスタの設定

クラスタの作成 の手順に従って、無料のMongoDB Atlasクラスタを作成します。データベースアクセスとネットワークアクセスを設定します。データベースアクセスおよびネットワークアクセス

MongoDB Atlasで時系列コレクションを作成する

このデモンストレーションの目的で、Kaggleからサンプルデータセットを使用し、同じデータをMongoDB Atlasにアップロードします。MongoDB ツール、特にMongoDB Compassを使用してください。

以下のコードは、時系列コレクションのサンプルデータセットを示しています:

{"store": "1 1","timestamp": { "2010-02-05T00:00:00.000Z"},"temperature": "42.31","target_value": 2.572,"IsHoliday": false}

以下のスクリーンショットは、MongoDB Atlasのサンプルの時系列データを示しています:

S3バケットの作成

AWSでS3バケットを作成し、時系列データを保存および分析する場所を指定します。2つのフォルダがあります。 sales-train-dataはMongoDB Atlasから抽出されたデータを保存するために使用され、sales-forecast-outputにはCanvasの予測結果が含まれています。

データ連合の作成

Atlasでデータ連合を設定し、以前に作成したS3バケットをデータソースの一部として登録します。Atlasクラスタ、MongoDB AtlasデータのためのS3バケット、Canvasの結果を保存するためのS3バケットの3つの異なるデータベース/コレクションが作成されることに注意してください。

以下のスクリーンショットは、データ連邦の設定を示しています。

Atlasアプリケーションサービスのセットアップ

MongoDBアプリケーションサービスを作成し、$out集計を使用してMongoDB AtlasクラスタからS3バケットにデータを転送する機能を展開します。

データソースの構成を確認する

アプリケーションサービスは新しいAtlasサービス名を作成し、後続の関数でデータサービスとして参照する必要があります。Atlasサービス名が作成されたことを確認し、将来の参照のためにメモしてください。

関数を作成する

Atlasアプリケーションサービスを設定して、トリガーと関数を作成します。トリガーは、モデルのトレーニングに必要なビジネスニーズに基づいてS3にデータを書き込む頻度ごとにスケジュールする必要があります。

次のスクリプトは、S3バケットに書き込むための関数を示しています:

exports = function () {   const service = context.services.get("");   const db = service.db("")   const events = db.collection("");   const pipeline = [    {            "$out": {               "s3": {                  "bucket": "<S3_bucket_name>",                  "region": "<AWS_Region>",                   "filename": {$concat: ["<S3path>/<filename>_",{"$toString":  new Date(Date.now())}]},                  "format": {                        "name": "json",                        "maxFileSize": "10GB"                  }               }            }      }   ];   return events.aggregate(pipeline);};

サンプル関数

関数は[実行]タブから実行でき、アプリケーションサービスの[ログ]機能を使用してデバッグできます。また、左側のメニューの[ログ]メニューを使用してエラーをデバッグすることもできます。

以下のスクリーンショットは、関数の実行と出力を示しています:

Amazon SageMakerキャンバスでデータセットを作成する

以下の手順は、SageMakerのドメインとユーザープロファイルを作成したことを前提としています。まだ行っていない場合は、SageMakerドメインおよびユーザープロファイルを構成してください。ユーザープロファイルでは、S3バケットをカスタムに設定し、バケット名を指定します。

完了したら、SageMakerキャンバスに移動し、ドメインとプロファイルを選択し、キャンバスを選択します。

データソースを供給するデータセットを作成します。

データソースとしてS3を選択します。

S3バケットからデータの場所を選択し、データセットを作成します。

スキーマを確認し、データセットを作成するをクリックします。

インポートに成功した場合、次のスクリーンショットに示すようにデータセットがリストに表示されます。

モデルのトレーニング

次に、Canvasを使用してモデルのトレーニングを設定します。データセットを選択して作成をクリックします。

モデル名を作成し、予測分析を選択し、作成を選択します。

ターゲットカラムを選択します。

次に、時系列モデルを構成して、アイテムID列としてitem_idを選択します。

タイムスタンプ列にtmを選択します。

予測する時間の量を指定するために、8週間を選択します。

モデルのプレビューやビルドプロセスの起動の準備が整いました。

モデルのプレビューまたはビルドを起動した後、モデルが作成されるまで最大4時間かかる場合があります。画面を離れても、モデルのトレーニング状況を確認するために戻ってくることができます。

モデルが準備できたら、モデルを選択し、最新バージョンをクリックしてください

モデルのメトリクスとカラムの影響を確認し、モデルのパフォーマンスに満足した場合は、予測をクリックしてください。

次に、バッチ予測を選択し、データセットを選択してください。

データセットを選択し、データセットを選択してください。

次に、予測の開始をクリックしてください。

SageMakerのInference、バッチトランスフォームジョブの下で作成されたジョブを観察するか、ジョブの進行状況を観察してください。

ジョブが完了したら、ジョブを選択し、Canvasが予測を保存したS3パスをメモしてください。

Atlas Chartsで予測データを可視化する

予測データを可視化するには、MongoDB AtlasチャートをFederatedデータ(amazon-forecast-data)に基づいて作成し、以下のチャートに示すようにP10、P50、およびP90の予測を行ってください。

整理

  • MongoDB Atlasクラスターを削除する
  • Atlas Data Federationの設定を削除する
  • Atlas Application Service Appを削除する
  • S3バケットを削除する
  • Amazon SageMaker Canvasのデータセットとモデルを削除する
  • Atlas Chartsを削除する
  • Amazon SageMaker Canvasからログアウトする

結論

この記事では、MongoDBの時系列データコレクションからデータを抽出しました。これは、時系列データの格納とクエリ速度の最適化に特化したコレクションです。Amazon SageMaker Canvasを使用してモデルをトレーニングし、予測を生成し、それをAtlas Chartsで可視化しました。

詳細については、以下の情報を参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「SIEM-SOAR インテグレーションによる次世代の脅威ハンティング技術」

NLP、AI、およびMLは、データ処理の効率化、自動化されたインシデント処理、コンプライアンス、および積極的な脅威検知を通じ...

機械学習

チャットアプリのLLMを比較する:LLaMA v2チャット対Vicuna

チャットアプリケーションにおいて、LLaMA v2 ChatとVicunaのどちらを使用するべきですか?2つのLLMの詳細な比較、それぞれの...

機械学習

「トランスフォーマーの簡素化:理解できる単語を使った最先端の自然言語処理(NLP)-パート2- 入力」

ドラゴンは卵から孵り、赤ちゃんはおなかから飛び出し、AIに生成されたテキストは入力から始まります私たちはみんなどこかか...

データサイエンス

「ZoomがAIトレーニングのために顧客データを使用することで法的ジレンマに直面」

新たな出来事の展開により、人気のあるビデオ会議プラットフォームであるZoomが、顧客データを人工知能(AI)モデルのトレー...

コンピュータサイエンス

「トップの生成AIプロジェクト」

急速に進化する技術のパノラマの中で、生成型AIプロジェクトの出現は、コンテンツの作成、体験、および相互作用の方法を再定...

人工知能

「生成AIの時代における品質保証の再考」

「GenAI が生成したコードに追いつくために、テストエンジニアはGenAIツールを活用し、QA計画の基礎を形成する必要があります」