「機械学習のための現実世界のデータ収集ガイド」
Guide for Real-World Data Collection for Machine Learning
データ収集プロセスを最適化するための5つの実用的な戦略
データサイエンスに初めて取り組む方でも、大規模な組織のチーフデータサイエンティストでも、おそらく完璧に作り込まれたデータセットを使用して、おもちゃの機械学習問題を解決するために遊んだことがあるかもしれません。おそらく、Irisデータセットで花の種類を予測するためにK-Meansクラスタリングを使用したことがあるかもしれません。または、タイタニック号の航海で生き残った乗客を予測するためにロジスティック回帰モデルを試したかもしれません。
これらのデータセットは、機械学習の基礎を学ぶのには素晴らしいものですが、実際の仕事で遭遇するリアルワールドのデータとは異なります。実際には、データに品質の問題があったり、現在のタスクには完璧でない場合がありますし、まだ存在しない場合もあります。これは、データサイエンティストがしばしばデータを収集する必要があり、現在のデータサイエンスのカリキュラムではあまりカバーされていない課題です。
新しいデータサイエンティストにとっては、問題に取り組む前に広範なデータを収集することは非常に困難に感じるかもしれません。なぜなら、この段階が全体の機械学習プロジェクトの基盤を築くからです。しかし、適切な戦略を持つことで、このプロセスははるかに管理しやすくなります。
私がデータサイエンティストとして10年以上経験してきた中で、さまざまなデータ収集戦略に出会いました。この記事では、データ収集プロセスを最適化し、成功する機械学習製品を作成するためのお気に入りの5つのヒントを共有します。
1. ユーザーに即座の価値を提供するためにデータ収集を変換する
強力な出発点は、最初から具体的な価値を提供することです。自動車業界の主要なプレーヤーであるテスラから例を借りてみましょう。彼らの完全自動運転車の目標は、数年にわたって開発され、大量のデータ収集が必要とされています。
では、このデータを集めながら彼らは何をしたのでしょうか?
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles