マシンラーニングにおいて未分類データを活用するための3つの画期的なテクニック

マシンラーニングの未分類データ活用における3つの画期的テクニック

アノテーションは非常に高価になる場合があります

写真:Pietro Jeng 氏/Unsplashより

機械学習エンジニアになる旅に出たり、単に現実世界の未ラベルデータから洞察を引き出すことに熱心な学習者である場合、未ラベルデータを効果的に利用する方法を理解することは不可欠です。

私がデータサイエンティストとしての旅を始めた頃、私はKaggleのような適切に整理された公開データセットを使用して遊んでいました。ほとんどの場合、データセットにはラベルが付いています。

99%の確立された企業が、生データを使用して機械学習モデルをトレーニングしていることに関して、大きな気づきがあります。生データには適切な構造やラベルが欠けており、未発掘の可能性の宝庫となっています。

企業は単に生データをそのままモデルのトレーニングに使用するわけではありません。その代わり、彼らは人々を雇って生データにアノテーション(注釈付け)を行います。

アノテーション:データにラベルを付けること。

例えば: Lionel Messiがテレビに映っているかどうかを検出したい場合、モデルにはMessiの多くの画像とバウンディングボックスをトレーニングする必要があります。このバウンディングボックスは、モデルに特定の位置にMessiがいることを知らせるためのラベルです。

Lionel Messi — Annotations. Image by the Author

未ラベルデータが高価な理由

多くの人が「いや、ラベル付きデータだけを使用するよ」と思うかもしれませんが、それは今後の数年間においては正しいかもしれません。私が言いたいのは、将来的には未ラベルデータを使用してモデルをトレーニングする準備を整える必要があるということです。

高価な側面について話すと、未ラベルデータをラベル付けデータに変換することは数十億ドルの産業です。

データのアノテーションが高価な理由

  • 重要なデータを完璧にラベル付けするには、ドメイン固有の専門知識が必要です。以下のようなものです:
  • 1. 医療画像
  • 2. 自動運転車
  • データの速度ボリュームは増加するため、アノテーションのための人数も増えます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more