「あなたがその仕事を手に入れることを保証する3つのデータサイエンスプロジェクト」

「データサイエンスプロジェクト3つであなたの仕事獲得を保証！」

かなり大胆な主張だよね！誰かが就職を保証できるとは。

でも実際のところ、人生には何も保証されていないんだ。特に仕事を見つけることなんて。データサイエンスでも同じ。ただし、就職をほぼ確実にするためには、ポートフォリオにデータプロジェクトを持っていることが一番重要だと思っている。

なぜ私はプロジェクトが重要だと考えているのか？なぜなら、適切に選んだ場合、プロジェクトはあなたの技術的なデータサイエンスのスキルの範囲と深さを最も効果的に示すからだ。プロジェクトの数ではなく、品質が重要だ。できるだけ多くのデータサイエンススキルをカバーしている必要がある。

では、何のプロジェクトが最も少ない数のプロジェクトでそう保証されるか？もし3つのプロジェクトに制限されるなら、私はこれらを選ぶだろう。

ただし、文字通りに受け取らないでね。ここでのメッセージは、厳密にこれらの3つにこだわるべきだということではない。私がそれらを選んだのは、データサイエンスに必要な技術スキルのほとんどをカバーしているからだ。他のデータサイエンスのプロジェクトを行いたい場合は、自由に行ってください。ただし、時間やプロジェクトの数に制限がある場合は、慎重に選び、最も幅広い範囲のデータサイエンススキルをテストするものを選んでください。

話はそれほどだから、これらのスキルを明確にしましょう。

データサイエンスプロジェクトで探すべき技術スキル

データサイエンスには5つの基本的なスキルがあります。

Python
データ加工
統計分析
機械学習
データ可視化

これは、選んだデータサイエンスプロジェクトから最大限の効果を得ようとする際に考慮すべきチェックリストです。

ここでは、これらのスキルがどのようなものか概観しましょう。

もちろん、データサイエンススキルはこれだけではありません。それにはSQLやRの知識、ビッグデータ技術、ディープラーニング、自然言語処理、クラウドコンピューティングも含まれます。

ただし、それらの必要性は求人の記載内容に大きく依存します。ただし、私が言及した5つの基本的なスキルは欠かせません。

では、選んだ3つのデータサイエンスプロジェクトがこれらのスキルにどのように挑戦するか見てみましょう。

基本的なデータサイエンススキルを練習するための3つのデータサイエンスプロジェクト

これらのプロジェクトのいくつかは、初心者には少し難しすぎるかもしれません。その場合は、これらの初心者向けの19のデータ管理ツールを試してみてください。

1. 都市の供給と需要の理解：ビジネス分析

出典：都市の供給と需要データからの洞察

トピック：ビジネス分析

概要：都市はUberの需要と供給の相互作用の中心です。これを分析することで企業のビジネスと計画についての洞察が得られます。Uberはトリップの詳細に関するデータセットを提供します。トリップ、時間、ドライバーの需要などについて11の質問に回答する必要があります。

プロジェクトの実行：表示された順番に11の質問が与えられます。これらに回答するには、以下のタスクが含まれます。

欠損値の補完
データの集約
最大値の検索
時間間隔の解析
割合の計算
加重平均の計算
差分の検索
データの可視化など

展示されるスキル: セレクトされた必要なカラムと欠損値の補完のための探索的データ分析（EDA）、完了したトリップに関する具体的な洞察の抽出（異なる期間、ドライバーごとのトリップの加重平均比率、ドライバースケジュールの作成を支援する最も忙しい時間帯の把握、供給と需要の関係など）、供給と需要の関係の可視化。

2. 顧客離反予測: 分類タスク

ソース: 顧客離反予測

トピック: 監督学習（分類）

概要: このデータサイエンスプロジェクトでは、ソニー研究所からある通信会社の顧客のデータセットが提供されます。探索的な分析や洞察の抽出を実行し、離反予測モデルを構築し、評価し、モデルを本番環境に展開する際の課題を議論することが期待されています。

プロジェクトの実行手順: プロジェクトは以下の主要なフェーズでアプローチする必要があります。

探索的分析と洞察の抽出

- データの基本を確認する（欠損値、重複）
- 必要なデータを選択し、データセットを形成する
- データの値の分布を確認するためにデータを可視化する
- 相関行列を作成する
- 特徴の重要性を確認する

トレーニング/テストデータ分割

- sklearnを使用して、データセットをトレーニングデータとテストデータに80% – 20%の割合で分割する

予測モデル

- 分類器を適用し、パフォーマンスに基づいて本番環境に使用するモデルを選択する

評価指標

- 異なるアルゴリズムのパフォーマンスを比較する際に、正解率とF1スコアを使用する

モデルの結果

- クラシカルな機械学習モデルを使用する
- 決定木を可視化し、木ベースのアルゴリズムのパフォーマンスを確認する

ディープラーニングモデル

- この問題に人工ニューラルネットワーク（ANN）を試す

展開の問題

- モデルのパフォーマンスを監視し、データのドリフトとコンセプトの変化を避ける

展示されるスキル: セレクトされた必要なカラムと欠損値の補完のための探索的データ分析（EDA）とデータの整形、データの欠損、データの一意性のチェック、データの分布、正の相関と負の相関に関する洞察の抽出、ヒストグラムと相関行列でのデータの可視化、sklearnライブラリを使用した機械学習分類器の適用、アルゴリズムの正解率とF1スコアの測定、アルゴリズムの比較、決定木の可視化、深層学習のパフォーマンスを確認するための人工ニューラルネットワークの使用、MLOpsサイクルでのデータのドリフトやコンセプトの変化の問題に注意するモデルの展開。

3. 予測型警察活動: 潜在的な影響を検証

ソース: 予測型警察活動の危険性

トピック: 監督学習（回帰）

概要: この予測型警察活動では、犯罪が発生しやすい場所を予測するためにアルゴリズムとデータ分析を活用します。選択した手法は重要な倫理的および社会的な影響を持つ可能性があります。このプロジェクトでは、サンフランシスコ市の2016年の犯罪データ（オープンデータイニシアチブからのデータ）を使用して、特定の郵便番号、曜日、時間帯での犯罪発生件数を予測しようとします。

プロジェクトの実行手順: プロジェクト作成者が実施した主な手順は以下のとおりです。

変数の選択と年ごとの郵便番号ごとの一時間あたりの総犯罪数の計算

トレイン/テストデータを年代順に分割する
5つの回帰アルゴリズムを試す：

- 線形回帰
- ランダムフォレスト
- K最近傍法
- XGBoost
- マルチレイヤーパーセプトロン

披露されたスキル：探索的データ分析（EDA）およびデータ整形により、犯罪、時刻、曜日、郵便番号に関するデータを収集する；ML（教師あり学習/回帰）により、線形回帰、ランダムフォレスト回帰、K最近傍法、XGBoostのパフォーマンスを試す；得られた結果を説明するためにマルチレイヤーパーセプトロンを使用するディープラーニング；犯罪予測とその悪用可能性についての洞察を導き出す；モデルをインタラクティブマップに展開する。

同じスキルを使用した他のプロジェクトを行いたい場合は、こちらに30以上のMLプロジェクトアイデアがあります。

結論

これらのデータサイエンスプロジェクトを完了することにより、データ整形、データ可視化、統計分析、MLモデルの構築と展開など、必要なデータサイエンススキルをテストして習得することができます。

MLについて話すと、データサイエンスでは教師あり学習がより一般的に使用されるため、ここでは特にそれに焦点を当てました。これらのデータサイエンスプロジェクトは、希望する仕事に就くために十分であるとほぼ保証できます。

ただし、求人募集の内容を注意深く読む必要があります。ここでカバーしていない教師なし学習、NLPなどを要求している場合は、そのようなプロジェクトをポートフォリオに含めてください。

何があっても、3つのプロジェクトに固執する必要はありません。これらのプロジェクトは、就職に必要なプロジェクトの選択方法を指南するためにここにあります。基本的なデータサイエンススキルを包括的に網羅するように、プロジェクトの複雑さに注意してください。

さあ、それでは早速就職を手に入れましょう！Nate Rosidiはデータサイエンティストであり、製品戦略でも活躍しています。彼はまた、実際の企業からのインタビューの質問を使って、データサイエンティストが面接に備えるのを支援するプラットフォームStrataScratchの創設者でもあります。彼のことをTwitter: StrataScratchまたはLinkedInでフォローしてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Career Advice

Was this article helpful?

93 out of 132 found this helpful