「Amazon SageMaker Canvasを使用して、コードを1行も書かずに機械学習を利用しましょう」

「コードを1行も書かずに機械学習を活用する方法:Amazon SageMaker Canvasのご紹介」

最近、機械学習(ML)を使用して予測を行うためには、特にテキストや画像の形式のデータの場合、ディープラーニングモデルの作成と調整に広範なMLの知識が必要でした。しかし、今日ではMLは、ビジネス価値を生み出すためにMLモデルを使用したいユーザーにとってよりアクセスしやすくなりました。Amazon SageMaker Canvasを使用すると、コードを1行も書かずに、表形式や時系列データ以外のさまざまなデータタイプに対して予測を作成することができます。これらの機能には、画像、テキスト、文書データタイプ向けの事前学習済みモデルが含まれます。

この投稿では、事前学習済みモデルを使用して、表形式のデータ以外のさまざまなデータタイプに対して予測を取得する方法について説明します。

テキストデータ

SageMaker Canvasは、MLモデルを構築、トレーニング、デプロイするための視覚的でコードを書かない環境を提供します。自然言語処理(NLP)のタスクでは、SageMaker CanvasはAmazon Comprehendとシームレスに統合されており、言語検出、エンティティ認識、感情分析、トピックモデリングなどの重要なNLP機能を実行することができます。この統合により、Amazon Comprehendの堅牢なNLPモデルを使用するためのコーディングやデータエンジニアリングの必要性がなくなります。テキストデータを提供し、以下の4つの一般的な機能から選択するだけです: 感情分析、言語検出、エンティティ抽出、個人情報の検出。それぞれのシナリオに対して、UIを使用してテストとバッチ予測を行い、Amazon Simple Storage Service(Amazon S3)に保存されているデータを選択することができます。

SageMaker Canvasでテキストデータを分析する

感情分析

感情分析を使用すると、SageMaker Canvasを使用して入力テキストの感情を分析することができます。全体の感情がポジティブ、ネガティブ、混合、または中立かを判断することができます。これは、製品のレビューを分析するなどの状況で有用です。例えば、「この製品が大好きです、素晴らしいです!」というテキストは、SageMaker Canvasによってポジティブな感情として分類されます。一方、「この製品はひどいです、買って後悔しています」というテキストは、ネガティブな感情としてラベル付けされます。

SageMaker Canvasでの感情分析

エンティティ抽出

SageMaker Canvasは、テキストを分析し、それに言及されているエンティティを自動的に検出することができます。ドキュメントが解析のためにSageMaker Canvasに送信されると、テキスト内の人物、組織、場所、日付、数量などのエンティティを特定します。このエンティティ抽出機能により、ドキュメントで議論されている主要な人物、場所、詳細を素早く把握することができます。サポートされるエンティティのリストについては、エンティティを参照してください。

SageMaker Canvasでのエンティティ抽出

言語検出

SageMaker Canvasは、Amazon Comprehendを使用してテキストの主要言語を判別することもできます。テキストを分析して主要な言語を識別し、検出された主要言語に対して信頼スコアを提供しますが、多言語ドキュメントの場合にはパーセンテージの内訳を示しません。複数の言語での長いドキュメントの場合、テキストを小さな部分に分割し、結果を集計して言語の割合を推定すると、最良の結果が得られます。少なくとも20文字のテキストが必要です。

SageMaker Canvas での言語検出

個人情報の検出

SageMaker Canvas を使用して個人情報の検出を行うこともできます。テキストドキュメントを分析し、個人を特定する情報(PII)エンティティを自動的に検出することができます。名前、住所、誕生日、電話番号、メールアドレスなどのような機密データを特定することができます。最大100 KBのドキュメントを分析し、各検出されたエンティティに信頼スコアを提供します。最も機密性の高い情報を選択的に隠蔽するために、それぞれのエンティティに対して信頼スコアを提供します。検出されたエンティティのリストについては、PIIエンティティの検出を参照してください。

SageMaker Canvas での PII 検出

画像データ

SageMaker Canvas は、画像分析のために Amazon Rekognition と統合することで、コンピュータビジョンの機能を直感的でコードレスなインターフェースで利用できます。例えば、画像データセットをアップロードし、Amazon Rekognition を使用してオブジェクトやシーンの検出、テキストの検出を行うことができます。ビジュアルインターフェースと Amazon Rekognition の統合により、開発者でなくても高度なコンピュータビジョンの技術を活用することが可能です。

SageMaker Canvas での画像データの分析

画像内のオブジェクト検出

SageMaker Canvas は、Amazon Rekognition を使用して画像内のラベル(オブジェクト)を検出します。SageMaker Canvas UI から画像をアップロードするか、S3 バケットに保存されている画像を選択して使用することができます。以下の例では、時計塔、バス、建物などの画像内のオブジェクトを抽出します。予測結果を検索し、ソートするためのインターフェースを使用することもできます。

SageMaker Canvas での画像内のオブジェクト検出

画像内のテキスト検出

画像からテキストを抽出することは非常に一般的なユースケースです。SageMaker Canvas では、コードを書くことなく簡単にこのタスクを実行することができます。以下のスクリーンショットに示されているように、テキストは行ごとに抽出されます。画像内の短いフレーズはまとめて分類され、フレーズとして識別されます。

SageMaker Canvas での画像内のテキスト検出

一括予測を行うこともできます。一括ジョブとして画像セットをアップロードし、結果を CSV ファイルとしてダウンロードすることができます。画像内のテキストを抽出し検出する場合に便利なソリューションです。

ドキュメントデータ

SageMaker Canvasは、日常のドキュメント理解ニーズを解決するためのさまざまな使用準備ができたソリューションを提供しています。これらのソリューションは、Amazon Textractによって強化されています。ドキュメントの利用可能なオプションをすべて表示するには、ナビゲーションペインでReady-to-use modelsを選択し、Documentsでフィルタリングしてください。以下のスクリーンショットに示すように。

SageMaker Canvasでドキュメントデータを分析する

ドキュメント分析

ドキュメント分析は、検出されたテキストの関係を分析するためのドキュメントとフォームを分析します。操作は、生のテキスト、フォーム、テーブル、署名の4つのドキュメント抽出のカテゴリを返します。ソリューションのドキュメント構造を理解する能力により、文書から抽出するデータのタイプに対して追加の柔軟性が得られます。以下のスクリーンショットは、テーブル検出の例です。

SageMaker Canvasでドキュメント分析する

このソリューションは、複雑なドキュメントのレイアウトを理解することができます。これは、ドキュメントから特定の情報を抽出する必要がある場合に役立ちます。

身分証明書分析

このソリューションは、個人識別カード、運転免許証、または他の類似の身分証明書などのドキュメントを分析することを目的としています。中間名、郡、出生地などの情報は、各身分証明書に対して個別の信頼性スコアと共に返されます。以下のスクリーンショットに示すように。

SageMaker Canvasで身分証明書分析する

バッチ予測を行うオプションもあります。身分証明書のセットを一括でアップロードし、バッチジョブとして処理することができます。これにより、身分証明書の詳細をデータ分析などのダウンストリームプロセスに使用できるキー-値ペアに変換するための迅速かつシームレスな方法が提供されます。

経費分析

経費分析は、請求書やレシートなどの経費ドキュメントを分析するために設計されています。以下のスクリーンショットは、抽出された情報の例です。

SageMaker Canvasで経費分析する

結果は、サマリー項目とラインアイテム項目として返されます。サマリー項目は、ドキュメントから抽出されたキー-値ペアであり、総計支払い期日税金などのキーを含みます。ラインアイテム項目は、ドキュメント内のテーブルとして構造化されたデータを指します。これは、ドキュメントから情報を抽出する際にレイアウトを保持するのに役立ちます。

ドキュメントクエリ

ドキュメントクエリは、ドキュメントについて質問をするために設計されています。これは、複数ページのドキュメントの場合に特定の回答を抽出したい場合に使用するのに適したソリューションです。以下は、質問のタイプと抽出された回答の例です。

SageMaker Canvasでドキュメントクエリを実行する

ソリューションは、大きな文書内で具体的な詳細を取得したい場合に便利な直感的なインターフェースを提供します。

結論

SageMaker Canvasは、テキスト、画像、ドキュメントなどさまざまなデータタイプを使用して機械学習を容易に利用するためのノーコード環境を提供します。視覚的なインターフェースとAmazon Comprehend、Amazon Rekognition、Amazon TextractなどのAWSサービスとの統合により、コーディングとデータエンジニアリングの必要性がなくなります。テキストでは、感情、エンティティ、言語、PIIの分析が可能です。画像では、オブジェクトとテキストの検出により、コンピュータビジョンのユースケースが実現します。最後に、ドキュメント分析では、テキストを抽出しながらレイアウトを維持し、下流プロセスに使用することができます。SageMaker Canvasの使いやすいソリューションにより、構造化および非構造化データの両方から洞察を生成するための高度な機械学習技術を活用することができます。ノーコードツールと準備ができた機械学習モデルを使用することに興味がある場合は、今すぐSageMaker Canvasを試してみてください。詳細については、Amazon SageMaker Canvasの使用の始め方を参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

なぜ包括的な画像セットが私たちにより良い製品作りを助けるのか

「私たちは、より包括的な製品を構築するために、株式画像会社であるTONLと協力して、より代表的なデータセットを作成しました」

機械学習

このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル(Code-LLMs)はコ...

データサイエンス

分散システム設計におけるコンセンサスアルゴリズムの役割の探索

この記事では、信頼性、データの一貫性、および耐障害性を確保する責任を負う人々の重要性と役割について探求します

AIニュース

「GPT-4とXGBoost 2.0の詳細な情報:AIの新たなフロンティア」

イントロダクション AIは、GPT-4などのLLMの出現により、人間の言語の理解と生成を革新し、大きな変化を経験しています。同時...

データサイエンス

「野心的なAI規制に対する力強いプロセス:オックスフォード研究からの3ステップソリューション」

「もしアカウンタブルマネージャーやプロダクトオーナー、プロジェクトマネージャー、もしくはデータサイエンティストで、AI...

データサイエンス

UC Berkeleyの研究者たちは、ディープラーニングにおいて効率的なデータ圧縮とスパース化を実現するための新しいホワイトボックストランスフォーマーであるCRATEを提案しています

最近、深層学習の実用的な成功は、高次元で多様なデータの処理とモデリングにおけるもので、指数関数的に成長しています。こ...