開発者の生産性向上:DeloitteのAmazon SageMaker Canvasを用いたノーコード/ローコード機械学習の活用方法
開発者の生産性向上:Amazon SageMaker Canvasを使用したノーコード/ローコード機械学習の活用方法- Deloitte
機械学習(ML)モデルを迅速に構築して展開する能力は、現代のデータ駆動型の世界でますます重要になっています。しかし、MLモデルの構築には時間と労力、そして専門知識が必要です。データの収集とクリーニングから特徴量エンジニアリング、モデルの構築、調整、展開まで、MLプロジェクトは開発者にとって数ヶ月かかることがよくあります。また、経験豊富なデータサイエンティストを見つけることも難しいかもしれません。
ここで、AWSの低コードおよびノーコードのMLサービスが重要なツールとなります。Amazon SageMaker Canvasを使用するだけで、コードを書く必要なく、MLのパワーを活用することができます。
Deloitteは、深いMLの経験を持つ戦略的なシステムインテグレーターとして、AWSのノーコードおよび低コードのMLツールを使用して、Deloitteのクライアントと内部の資産のために効率的にMLモデルを構築および展開しています。これらのツールにより、Deloitteはハンドコードのモデルやパイプラインを作成することなくMLソリューションを開発することができます。これにより、プロジェクトの配信スケジュールを速めることができ、Deloitteはより多くのクライアントの仕事を引き受けることができます。
以下は、Deloitteがこれらのツールを使用する具体的な理由のいくつかです:
- 「新しく進化したAmazon SageMaker Studioを体験してください」
- 「Amazon SageMakerは、企業がユーザーをSageMakerにオンボードするために、SageMakerドメインのセットアップを簡単化します」
- 「機械学習をマスターするための10のGitHubリポジトリ」
- 非プログラマー向けのアクセシビリティ – ノーコードツールにより、MLモデルの構築がプログラマー以外のメンバーにも開放されます。ドメインの専門知識を持ち、コーディングスキルがほとんどないチームメンバーでも、MLモデルを開発することができます。
- 新しいテクノロジーの迅速な採用 – 使用可能なモデルやAutoMLの改善が常に行われているため、ユーザーは常に最先端のテクノロジーを利用することができます。
- 効率的な開発 – ノーコードツールを使用することで、MLモデルの開発にかかるコストと時間を削減することができます。これにより、クライアントによりアクセスしやすくなり、投資利益率が向上することができます。
さらに、これらのツールは迅速なワークフローのための包括的なソリューションを提供し、以下のようなことが可能になります:
- 高速なデータ準備 – SageMaker Canvasには300以上の組み込み変換と自然言語を使用したデータ準備が加速できる機能があります。
- 高速なモデル構築 – SageMaker Canvasは、使いやすいモデルまたはAmazon AutoMLテクノロジーを提供しており、企業データでカスタムモデルを数回のクリックで構築することができます。これにより、モデルをゼロからコーディングする場合よりもプロセスをスピードアップすることができます。
- 簡単な展開 – SageMaker Canvasでは、本番用のモデルを数回のクリックでAmazon Sagmakerエンドポイントに展開することができます。さらに、Amazon SageMaker Model Registryに登録することもできます。
DeloitteのCloud CTOであるVishveshwara Vasa氏は次のように述べています:
「SageMaker CanvasやSageMaker Data Wranglerなど、AWSのノーコードMLサービスを使用することで、Deloitte Consultingでは新しい効率性を開放し、クライアント向けおよび内部プロジェクト全体での開発および展開の生産性を30〜40%向上させています」
この投稿では、SageMaker Canvasを使用してコードを使用せずにエンドツーエンドのMLモデルを構築する力を実証します。顧客がローンの債務不履行の可能性を予測するための分類モデルの構築方法を示し、ローンの債務不履行をより正確に予測することで、金融サービス企業がリスクを管理し、適切に融資の価格を決定し、業務を改善し、追加のサービスを提供し、競争上の優位性を得るのに役立つモデルです。この投稿では、SageMaker Canvasを使用して、生のデータからローンの債務不履行予測のためのデプロイされたバイナリ分類モデルまで迅速に進む方法も示します。
SageMaker Canvasは、SageMaker Canvasワークスペース内のAmazon SageMaker Data Wranglerによって提供される包括的なデータ準備機能を提供しています。これにより、データの準備からモデルの構築、展開まで、標準的なMLワークフローのすべてのフェーズを単一のプラットフォーム上で行うことができます。
データの準備は通常、MLワークフローの中で最も時間のかかるフェーズです。SageMaker Canvasを使用することで、300以上の組み込み変換を使用してデータの準備にかかる時間を短縮することができます。また、自然言語プロンプトを記述することもできます。たとえば、「外れ値となる列cの行を削除する」といったプロンプトを書くと、このデータの準備ステップに必要なコードスニペットが表示されます。これを数回のクリックでデータの準備ワークフローに追加することができます。この投稿でもその使用方法を示します。
ソリューション概要
次の図は、SageMakerのローコードおよびノーコードツールを使用した融資デフォルト分類モデルのアーキテクチャを示しています。
Amazon Simple Storage Service(Amazon S3)に融資デフォルトデータの詳細が含まれるデータセットから始め、SageMaker Canvasを使用してデータについての洞察を得ます。次に、カテゴリカルな特徴のエンコーディング、不要な特徴の削除などの変換を適用するための特徴エンジニアリングを実行します。その後、クレンジングされたデータをAmazon S3に保存します。クリーンデータセットを使用して融資のデフォルトを予測するための分類モデルを作成します。その結果、本番用のモデルが利用可能になります。
前提条件
次の前提条件が完了していること、およびSageMakerドメインのセットアップ時にCanvas Ready-to-use modelsオプションが有効になっていることを確認してください。既にドメインを設定している場合は、ドメイン設定を編集し、Canvas settingsに移動してEnable Canvas Ready-to-use modelsオプションを有効にしてください。さらに、SageMaker Canvasアプリケーションを設定し、Amazon Bedrock上のAnthropic Claudeモデルアクセスを要求して有効にしてください。
データセット
当社はKaggleからの公開データセットを使用しており、金融ローンに関する情報が含まれています。データセットの各行は単一のローンを表し、各トランザクションについての詳細が提供されます。このデータセットをダウンロードし、お好きなS3バケットに保存してください。以下の表には、データセットのフィールドがリストされています。
カラム名 | データ型 | 説明 |
Person_age |
整数 | ローンを受けた個人の年齢 |
Person_income |
整数 | 借り手の収入 |
Person_home_ownership |
文字列 | 住宅所有状況(所有または賃貸) |
Person_emp_length |
小数 | 雇用されている年数 |
Loan_intent |
文字列 | ローンの理由(個人的、医療、教育など) |
Loan_grade |
文字列 | ローンの格付け(A〜E) |
Loan_int_rate |
小数 | 利率 |
Loan_amnt |
整数 | ローンの総額 |
Loan_status |
整数 | 目標(デフォルトの有無) |
Loan_percent_income |
小数 | 収入に対するローン金額の割合 |
Cb_person_default_on_file |
整数 | 以前のデフォルト(ある場合) |
Cb_person_credit_history_length |
文字列 | 信用履歴の長さ |
SageMaker Canvasを使用してデータの準備を簡素化する
データの準備には、MLプロジェクトの労力の80%を費やすことがあります。適切なデータの準備は、モデルのパフォーマンスを向上させ、より正確な予測を可能にします。SageMaker Canvasでは、SQLやPythonのコードを書かずに、対話的なデータ探索、変換、準備ができます。
以下の手順でデータの準備を行ってください:
- SageMaker Canvasコンソールで、ナビゲーションペインでデータの準備を選択します。
- 作成メニューでドキュメントを選択します。
- データセット名に、データセットの名前を入力します。
- 作成を選択します。
- データソースとしてAmazon S3を選択し、データセットに接続します。
- データセットがロードされたら、そのデータセットを使用してデータフローを作成します。
- 分析タブに切り替え、データ品質と洞察のレポートを作成します。
これは、入力データセットの品質を分析するための推奨される手順です。このレポートの出力により、データの歪み、重複、欠損値などのインスタントMLパワーをもつ洞察が得られます。以下のスクリーンショットは、ローンデータセットに対して生成されたレポートのサンプルを示しています。
SageMaker Canvasは、あなたの代わりにこれらの洞察を生成することで、データの準備フェーズで解決すべき問題のセットを提供します。SageMaker Canvasで特定された上位2つの問題を解決するには、カテゴリ特徴量をエンコードし、重複行を削除する必要があります。SageMaker Canvasでは、この両方を含むさまざまなビジュアルワークフローでこれらの操作を行うことができます。
- まず、
loan_intent
、loan_grade
、およびperson_home_ownership
をワンホットエンコードします - Data Quality and Insights Reportで示されるように、最も予測力の少ない
cb_person_cred_history_length
列を削除できます。 SageMaker Canvasは最近、チャットでデータと対話するオプションを追加しました。この機能は、自然言語のクエリを解釈し、特徴エンジニアリング変換を適用するPythonベースのコードを生成するためのファウンデーションモデルのパワーを利用します。この機能はAmazon Bedrockによって提供され、お使いのVPC内ですべて実行されるように設定できますので、データは決して外部に出ません。 - 重複行を削除するために、ドロップカラム変換の隣にあるプラスマークを選択し、チャットでデータを選択します。
- 自然言語でクエリを入力します(例: “データセットから重複行を削除する”)。
- 生成された変換を確認し、ステップに追加を選択して変換をフローに追加します。
- 最後に、これらの変換の出力をAmazon S3にエクスポートするか、任意でAmazon SageMaker Feature Storeにエクスポートして、これらの特徴を複数のプロジェクトで使用します。
大規模データセットのワークフローをスケーリングするために、Amazon S3の宛先にデータセットのためのAmazon S3の宛先を作成するための追加の手順を追加することもできます。以下の図は、ビジュアル変換を追加した後のSageMaker Canvasのデータフローを示しています。
SageMaker Canvasで視覚的なワークフローを使用して、データ処理と特徴エンジニアリングのステップ全体を完了しました。これにより、データエンジニアがデータをクリーニングし、モデル開発のためにデータを準備するのにかかる時間が、数週間から数日に短縮されます。次のステップは、MLモデルの構築です。
SageMaker Canvasを使用したモデルの構築
Amazon SageMaker Canvasは、この2クラス分類モデルの構築、分析、テスト、展開のためのノーコードエンドツーエンドワークフローを提供しています。以下の手順を完了してください:
- SageMaker Canvasでデータセットを作成します。
- データのエクスポートに使用したS3の場所またはSageMaker Canvasジョブの宛先となるS3の場所を指定します。これでモデルの構築の準備が整いました。
- ナビゲーションペインでModelsを選択し、New modelを選択します。
- モデルに名前を付け、モデルタイプとして予測分析を選択します。
- 前のステップで作成したデータセットを選択します。次のステップは、モデルタイプの設定です。
- ターゲット列を選択し、モデルタイプは自動的に2つのカテゴリの予測と設定されます。
- ビルドタイプを標準ビルドまたはクイックビルドから選択します。SageMaker Canvasは、モデルの構築を開始すると予想されるビルド時間を表示します。標準ビルドには通常2〜4時間かかり、小規模なデータセットの場合は2〜15分で完了するクイックビルドオプションを使用できます。この特定のデータセットでは、モデルの構築には約45分かかるはずです。SageMaker Canvasは、モデルの構築プロセスの進行状況をお知らせします。
- モデルが構築されたら、モデルのパフォーマンスを確認できます。SageMaker Canvasは、モデルのタイプによって精度、適合率、F1スコアなどさまざまなメトリックを提供します。以下のスクリーンショットは、この2クラス分類モデルの精度とその他の高度なメトリックを示しています。
- 次のステップはテスト予測を行うことです。SageMaker Canvasを使用すると、複数の入力でバッチ予測または単一の予測を行って、モデルの品質を素早く検証することができます。以下のスクリーンショットは、サンプルの推論を示しています。
- 最後のステップはトレーニング済みモデルの展開です。SageMaker Canvasは、モデルをSageMakerエンドポイントにデプロイし、推論に使用できる本番モデルができます。以下のスクリーンショットは、デプロイされたエンドポイントを示しています。
モデルがデプロイされた後、AWS SDKまたはAWSコマンドラインインターフェース(AWS CLI)を介して呼び出すか、任意のアプリケーションにAPIコールを行って、潜在的な借り手のリスクを自信を持って予測することができます。モデルのテストの詳細については、リアルタイムエンドポイントの呼び出しを参照してください。
クリーンアップ
追加料金を発生させないために、SageMaker Canvasからログアウトするか、作成されたSageMakerドメインを削除してください。さらに、SageMakerモデルエンドポイントを削除し、Amazon S3にアップロードされたデータセットを削除してください。
結論
No-code MLは開発を加速し、デプロイを簡素化し、プログラミングスキルを必要とせず、標準化を高め、コストを削減します。これらの利点により、Deloitteは自社のMLサービス提供の向上のためにno-code MLを魅力的とみなし、MLモデルの構築期間を30〜40%短縮しました。
Deloitteは、世界中で17,000人以上の認定AWSプラクティショナーを持つ戦略的なグローバルシステムインテグレーターです。DeloitteはAWS Competency Programに機械学習を含む25の専門分野を持つことで基準を高め続けています。AWSのno-codeおよびlow-codeソリューションを企業で使用するために、Deloitteと連絡を取りましょう。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles