Amazon SageMaker Ground Truthのはじめ方

Getting Started with Amazon SageMaker Ground Truth.

イントロダクション

ジェネレーティブAIの時代において、データ生成はピークに達しています。正確な機械学習およびAIモデルの構築には、高品質なデータセットが必要です。データセットの品質保証は最も重要なタスクであり、不正確な分析や特定できない予測は、どのビジネスの全体的なレポに影響を与え、数十億または数兆の損失をもたらす可能性があります。

データラベリングは、AIモデルが理解できるようにするためのデータ品質保証の第一歩です。人間にデータラベルを付けることはできないため、日々生成される無制限のデータに人間がラベルを付けることはできません。そのため、ここでは正確にラベル付けされたデータセットを作成するための素晴らしいテクニックであるAmazon SageMaker Ground Truthについて学びます。

この記事は、データサイエンスブログマラソンの一部として公開されました。

Amazon SageMaker Ground Truthとは何ですか？

Amazon SageMaker Ground Truthは、データラベリングタスクを実行して効率的で高精度なデータセットを作成するためのセルフサービスオファリングです。Ground Truthでは、サードパーティのベンダーやAmazon Mechanical Turk、または私たち自身のワークフォースを介して人間の注釈者を使用することもできます。また、エンドツーエンドのラベリングジョブを設定するための管理された体験も提供しています。

SageMaker Ground Truthは、データ収集やラベリングの手間をかけずに数百万の自動ラベル付け合成データを生成することができます。Ground Truthは、画像、テキスト、ビデオなどさまざまなデータタイプのデータラベリング機能を提供します。これにより、テキスト分類、セグメンテーションセグメンテーション、オブジェクト検出、画像分類のタスクを機械学習モデルが容易に行えるようになります。

Amazon SageMaker Ground Truthの使用事例

以下に、SageMaker Ground Truthのいくつかの業界での使用事例を示します:

自動運転車: 自動運転車のモデルをトレーニングするためには大量のラベル付きデータが必要です。SageMaker Ground Truthは、車、歩行者、交通標識、道路標識などのオブジェクトに注釈を付けて正確なパーセプションモデルを開発し、安全な自動運転を支援します。
ヘルスケア: SageMaker Ground Truthを使用して医療画像データセットにラベルを付け、がん、脳腫瘍、およびその他の異常を診断および識別するためのモデルをトレーニングすることができます。また、自然言語処理（NLP）アプリケーションで医療記録を転記および注釈付けすることも可能です。
製造業: 製造プロセスでの画像やセンサーデータのラベリングは、品質管理、欠陥検出、予測メンテナンス、生産効率の最適化に役立ちます。

SageMaker Ground Truthの柔軟性により、ラベル付きデータセットがトレーニングおよび機械学習モデルの改善に必要なさまざまな業界に適用することができます。

Ground Truthを介した自動データラベリング

Amazon SageMaker Ground Truthは、機械学習アルゴリズムの応用であり、データを自動的かつ正確にラベル付けするためにアクティブラーニングの概念を使用しています。アクティブラーニングは、機械が最初に理解できない複雑なデータを特定し、それを人間にラベル付けするために抽出する機械学習の技術の一種です。Ground Truthの動作について説明しましょう！

ステップ1: データの保存

異なるソースから生のラベル付けされていないデータを収集し、S3バケットに保存します。

ステップ2: データの人間への送信

このステップでは、データセットのランダムな一部を選び、人間による手動データラベリングのために送信します。

ステップ3：人間のラベリング

作業者がデータチャンクを受け取ると、すぐにそれをラベリングし始めます。

ステップ4：ラベル統合アルゴリズム

Amazon Sagemaker Ground Truthは、このラベル統合アルゴリズムを使用して、人間のエラーのリスクを排除し、ラベル付きデータセットの正確性を向上させます。アルゴリズムの動作は、データセット内の各データポイントのすべてのラベルを収集し、ラベルの重みに応じてそれらを単一のラベルに統合することです。

ステップ5：結果のデータセット

今、結果のデータセット、小規模なラベル付きデータセットを保存しました。

ステップ6：Amazon Sagemakerモデル

今、機械学習アルゴリズムに基づいた自己学習モデルを作成し、顧客アカウントにインストールして、顧客が作成している小規模なラベル付きデータセットからモデルをトレーニングし、残りの未ラベル付けデータを自動的にラベル付けします。

ステップ7：MLモデルの使用

このステップでは、新しく作成したMLモデルを使用して、元のデータセットの未ラベル付けデータポイントにラベルを付けます。

ステップ8：自動ラベリング

アクティブラーニング手法を用いて、残りのデータセットに自動ラベリングが適用されます。

ステップ9：高信頼度

このステップでは、モデルの信頼スコアをチェックし、モデルのスコアが高い場合にのみ自動注釈を適用します。

ステップ10：低信頼度

モデルの信頼スコアが低い場合、自動注釈を適用することはできません。その場合、そのデータの一部をラベリングするために人間に送信します。ただし、モデルは自動的に新しいデータセットを作成して、トレーニングし、正確性を向上させます。

データセット全体は、これらのステップを繰り返すことで完全にラベル付けされます。

Amazon SageMaker Ground Truthによる正確性の向上の影響

Sagemakerは、トレーニングデータの正確性を向上させるために基本的に2つの方法を提案しています：

1. 注釈の統合

注釈の統合の目的は、各作業者のエラー/バイアスに対抗するために、各データオブジェクトを2人以上の作業者に送り、その応答を1つのラベルに統合することです。

さまざまな作業者からデータを収集した後、それらを比較するために統合アルゴリズムを適用します。

アルゴリズム

却下された外れ値の注釈を検出します。
より信頼性の高い注釈により高い重みを割り当てることで、注釈を重み付きに統合します。
データセット内の各オブジェクトに割り当てられるラベルは、真のラベルの確率的な推定です。オブジェクトには複数の注釈があるかもしれませんが、出力は各オブジェクトに対して単一のラベルです。
注釈を行う作業者の数を選択できますが、ラベルの正確性が向上する一方で、ラベリングコストも増加するという問題があります。

Ground Truthが提供する注釈の統合機能は、NER（固有名詞認識）、バウンディングボックス、セマンティックセグメンテーション、および画像およびテキスト分類を含む、すべての事前定義されたラベリングタスクに適用されます。それぞれの機能を理解しましょう！

Named Entity R ecognition(NER): NER においては、クラスター内のテキスト選択にはジャカード類似度が使用されます。選択範囲の計算には、ラベルのモードを取り、モードが不明な場合は中央値のラベルとします。最後に、クラスター内で最も割り当てられたエンティティラベルを解決するために、ランダムな選択が役割を果たします。
Bounding B ox A nnotation: バウンディングボックス注釈では、さまざまな作業者から境界ボックスを取得し、ボックスのジャカード指数または共通部分を使用して最も類似のものを選択し、平均化することによって統合タスクが実行されます。
Multi-class A nnotation C o**** nsolidation for Image and Text Classification: 統合は、別々の作業者からのクラス注釈に基づいて真のクラスを推定することによって行われます。
Semantic Segmentation Annotation: このシステムでは、画像の各ピクセルをマルチクラスオブジェクトとして扱い、作業者からのピクセル注釈を「投票」として扱います。さらに、画像に平滑化関数を適用することで、周囲のピクセルからの追加情報を組み込みます。

2. 注釈インターフェースのベストプラクティス

注釈インターフェースには、人間のラベリングタスクの正確性や品質を向上させるためのさまざまな機能があります。このよく整理されたデザインのインターフェースは、ワーカーが適切なデータセットを最小のエラーで取得できるように支援します。ベストプラクティスには、固定されたサイドパネルに簡潔な指示や優れた例と悪い例を表示することが含まれます。また、バウンディングボックス注釈のための画像境界のみを強調表示する機能もあります。

結論

Amazon Sagemaker Ground Truth が機械学習モデルのために高品質なデータセットを生成する方法について説明しました。Ground Truth のキーポイントは以下の通りです：

データラベリングは、AIモデルが理解できるようにするためのデータ品質保証の最初のステップです。
人手によるデータ収集やラベリングの手間なしに、数百万の自動ラベル付け合成データを生成できます。
注釈の統合と注釈インターフェースのベストプラクティスは、Sagemaker がトレーニングデータの正確性を向上させるための方法です。

よくある質問

この記事に表示されているメディアは Analytics Vidhya の所有ではなく、著者の裁量により使用されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AlgorithmAmazonAmazon SageMakerblogathondatasetGuideimageMachine learningObject

Was this article helpful?

93 out of 132 found this helpful