マシンラーニングにおいて未分類データを活用するための3つの画期的なテクニック
マシンラーニングの未分類データ活用における3つの画期的テクニック
アノテーションは非常に高価になる場合があります
機械学習エンジニアになる旅に出たり、単に現実世界の未ラベルデータから洞察を引き出すことに熱心な学習者である場合、未ラベルデータを効果的に利用する方法を理解することは不可欠です。
私がデータサイエンティストとしての旅を始めた頃、私はKaggleのような適切に整理された公開データセットを使用して遊んでいました。ほとんどの場合、データセットにはラベルが付いています。
99%の確立された企業が、生データを使用して機械学習モデルをトレーニングしていることに関して、大きな気づきがあります。生データには適切な構造やラベルが欠けており、未発掘の可能性の宝庫となっています。
企業は単に生データをそのままモデルのトレーニングに使用するわけではありません。その代わり、彼らは人々を雇って生データにアノテーション(注釈付け)を行います。
アノテーション:データにラベルを付けること。
例えば: Lionel Messiがテレビに映っているかどうかを検出したい場合、モデルにはMessiの多くの画像とバウンディングボックスをトレーニングする必要があります。このバウンディングボックスは、モデルに特定の位置にMessiがいることを知らせるためのラベルです。
未ラベルデータが高価な理由
多くの人が「いや、ラベル付きデータだけを使用するよ」と思うかもしれませんが、それは今後の数年間においては正しいかもしれません。私が言いたいのは、将来的には未ラベルデータを使用してモデルをトレーニングする準備を整える必要があるということです。
高価な側面について話すと、未ラベルデータをラベル付けデータに変換することは数十億ドルの産業です。
データのアノテーションが高価な理由
- 重要なデータを完璧にラベル付けするには、ドメイン固有の専門知識が必要です。以下のようなものです:
- 1. 医療画像
- 2. 自動運転車
- データの速度とボリュームは増加するため、アノテーションのための人数も増えます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles