データサイエンティストとは具体的に何をする人なのでしょうか?
What exactly does a data scientist do?
3つの異なるデータサイエンスチームで働いた後の私の正直な反省(ヒント:思っているよりもパワーポイントが多い)
データサイエンティストには多くの呼び方があります:
- 「データサイエンティストとは、サンフランシスコに住む統計学者です」
- 「プロのモデラー、ただし違う」
- 「Stack OverflowをGoogleするために給料をもらっている」
- 「役員に対して魔法を売る」
また、私の個人的なお気に入り:
- 「データサイエンスとは、Mac上の統計学です」
このような職業の説明のバリエーションからわかるように、データサイエンティストの役割が実際に日々何を行っているかを把握するのは非常に難しいです。既存の記事にはたくさんありますが、これらは2012年から2020年までのものが多く、データサイエンスのような分野では、これらはすぐに時代遅れになる可能性があります。
この記事では、比喩的なカバーをはがし、2023年のデータサイエンティストの生活について個人的な洞察を提供することを目的としています。
- PatchTST 時系列予測における画期的な技術革新
- レトロなデータサイエンス:YOLOの最初のバージョンのテスト
- SeabornとMatplotlibを使用して美しい年齢分布グラフを作成する方法(アニメーションを含む)
3つの異なるデータサイエンスチームでの経験を踏まえ、以下の3つのタイプの人々に役立つようにします:
- 志望するデータサイエンティスト:仕事内容に関する現実的な洞察を提供し、自分に適しているかどうか、どのスキルを身につけるべきかについてより明確な決定を下すことができます。
- データサイエンティスト:チームで試す新しいアイデアを刺激するか、「実際に何をしているのか」という質問に対する回答を提供することができます。
- データサイエンティストと一緒に働く(または採用したい)人々:私たちが実際に何をしているか(そして、おそらくより重要なことに、何をしないか)を知ることができます。
自動運転車、ChatGPT、Deep Learningばかりではありません
ある大手テック企業のAI部門長は、データサイエンティストについて最もよくある誤解は、常にディープラーニングモデルを構築し、派手なAIを行っているということです。
確かにデータサイエンスは非常に派手になることがありますが、それは人工知能だけに限られるわけではありません。データサイエンスをAIと同一視するのは、弁護士が裁判所で「異議あり!」と叫んでいると仮定することに似ています。裏ではたくさんのことが起こっているのです。
「派手なAI」以上のことがあります
私のお気に入りのデータサイエンスの説明の1つは、シアトルを拠点とする主任データサイエンティストであるJacqueline Nolisによるものです。Nolisは、データサイエンスを3つのストリームに分けています:
- ビジネスインテリジェンス — 「企業が持つデータを適切な人々の前に提示する」
- 意思決定科学 — 「データを活用して企業の意思決定を支援する」
- 機械学習 — これは、「データサイエンスモデルを継続的に生産に投入する」と彼女が説明していますが、私はMLモデルの実際の開発を含めたより広範な視野を持つ傾向があります。
異なる企業では、異なるストリームが強調され、これらのストリーム内でも方法や目標は異なります。たとえば:
- 決定科学で働くデータサイエンティストの場合、日常的なタスクはA/Bテストの実行から線形プログラミング問題の解決まで何でも含まれます。
- 大半の時間をMLモデルの構築に費やすデータサイエンティストの場合、製品に焦点を当てたもの(アプリに組み込まれる推薦アルゴリズムの構築など)またはビジネスオペレーションに焦点を当てたもの(価格や予測モデルの構築など、企業のバックエンドの商業オペレーションの改善に使用される)があります。
私がデータサイエンスで最も楽しいと感じることの1つは、これらすべての領域に少し手を出すことができることであり、私が行ってきたデータサイエンスの役割では、常に多様性を確保するようにしています。データサイエンティストのキャリアを枠組みとして定義するために以前主張した「なんでも屋、マスター・オブ・ワン」のマインドセットを構築する良い方法の1つです。
あなたが思っている(または望んでいる)以上に、PowerPointには多くの機能があります
ああ、PowerPoint。あなたがデータサイエンティストがそれから免れると思ったら、大間違いです。
スライドを作成し、プレゼンテーションすることは、任意のデータサイエンティストの役割の重要な部分です。なぜなら、あなたのモデルの価値を伝えることができなければ、どこにも行かないからです。アンドリュー・ヤングは次のように述べています。
これまで多くの博士号保持のデータサイエンティストが見てきました。彼らは、理論的に実世界の価値を提供する(理論上)非常に効果的な機械学習パイプラインを数週間または数か月かけて構築することができます。残念ながら、これらの労力の成果は、その仕事の価値を効果的に伝えることができなければ、枯れた葡萄のように死んでしまうことがあります。
私たちは、ステークホルダーとのコミュニケーションに多くの重点を置いているため、私たちの日々の仕事にはPowerPointがかなり登場します。
プロジェクトごとに、私たちはマスタースライドデッキを作成し、異なるチームメンバーが追加できるようにし、ステークホルダーにプレゼンテーションするときに関連するスライドをこのデッキから選択します。必要に応じて、私たちは主要なスライドの複数のバージョンを作成して、技術的な専門知識のレベルが異なるさまざまなオーディエンスにメッセージを合わせることができるようにしています。
正直に言えば、私はPowerPointで時間を費やすことを実際には気にしません(私をキャンセルしないでください)。スライドを作成することは、重要なアイデアを簡潔にまとめるための素晴らしい方法だと思うからです。正直に言って、それは私に大きな問題についての大きな質問を思い出させてくれます。すなわち、(1)私が解決しようとしている問題、(2)私の解決策がベースラインの解決策と比較してどうなのか、そして(3)依存関係とタイムラインは何か、です。
クリーンなデータ? 飲み物を持っておいて
データサイエンスは、データの準備が80%であるとよく言われます…
…そしてデータの準備に対する20%の不平を言うだけではありません。
そして、私が話しているのは、データサイエンスが「新しいもの」である企業だけでなく、確立されたデータセットを持つ確立された企業でも同様です。少なくとも、データセットが(1)異なるプラットフォームに保存されている、(2)異なる頻度で公開されている、または(3)正しいフォーマットに変換するために大幅な手間が必要であることがわかります。モデルがプロダクションにある場合でも、データセットがドリフトしていないか、破損していないか、情報が欠落していないかを常にチェックする必要があります。
そしてユーザー入力データについては、まだ何も言っていません。
私の以前の仕事の1つでは、ユーザーが住所を入力する必要があるオンラインフォームがあり、私たちのユーザーは「バルセロナ」という単語を95通りもの異なるスペルで使用しました。「バルカロナ」から「BARÇA」、「バルナ」といったものまで、すべて含まれています。
「バルセロナ」という単語を95通りもの異なるスペルで使用しました
物語の教訓:正規表現のドキュメントに泣きながら、自由テキストフィールドを持たないでください。
常に学び続ける
データサイエンスを愛する理由の1つは、継続的な学習が必要であることです。
私にとって、同じことをずっとやる仕事に巻き込まれることを恐れていましたが、データサイエンスはそのようなキャリアではありません。データサイエンティストとして、あなたが発見することは、標準的なプロジェクトなどというものは存在しないということです。すべてのプロジェクトには少しだけ独自のアプローチが必要であり、既存の知識を適応させ、新しいことを学ぶ必要があります。
そして、「フォーマル」な学習、つまりカンファレンスに参加したり、オンラインコースを受講するなどのことだけではありません。
むしろ、コーディングのドキュメント、Towards Data Scienceの記事、Stack Overflowの回答を読んで「マイクロラーニング」をすることが、あなたの日々の大部分を占めることになるでしょう。継続的な学習と最新情報についてどのようにアプローチするかに興味がある場合は、最近の記事の1つを読んでみることをお勧めします。
フルタイムのデータサイエンティストとして最新のAIトレンドについてどのように最新情報を知るか
いいえ、ChatGPTに聞くだけではありません
towardsdatascience.com
それはチームスポーツです
データサイエンティストは孤立しないで存在します。
私たちはチームに組み込まれています。効果的に仕事をするためには、協力して働く必要があります。Megan Lieuが言うように、私はそれが本当に好きです:
私がデータサイエンティストになったときに最もがっかりしたことは、一日中自分自身でモデルを構築し、技術的なデータサイエンス的なことだけをして、誰とも話をしないことではないと知ったことです。
「誰とも話さず、モデルを構築し、自分で技術的なデータサイエンス的なことだけをすることを待ちきれません!」
私の内向的な恐怖にもかかわらず、私はビジネスや外部の関係者と毎日協力し、実際に話をする必要があることに気づきました。
私はMeganほど強く感じていない(私は本来エクストロバートな方です)、最初は役割がどれだけチームベースになることが多いかに驚かされました。私の役割では、「協力」とは、タスクやブロッカーについて毎日のスタンドアップで話し合ったり、コードをデバッグして最適化するための定期的なペアプログラミングセッションを行ったり、異なる技術的なアプローチのメリットについてバランスの取れた議論(つまり、論争)をすることを意味します。
全体的に、私は約50〜70%の時間を単独で作業し、残りの時間はペアやグループでの作業をしていると思いますが、正確な比率は、会社やシニアレベルによってかなり異なります。
そして、それであなたはそれを持っています!
フルタイムのデータサイエンティストとしての私の小さな洞察を読んでいただき、ありがとうございます。
役に立ったと思いますので、お気軽にお話しましょう 🙂
もう一つお願いがあります。あなたは私の1%になれますか?
VoAGIで私の「フォロー」ボタンをクリックする読者は1%未満です。ですから、VoAGI、Twitter、またはLinkedInで、どこであっても、あなたがクリックしてくれると本当にうれしいです。
私のすべてのストーリー(およびVoAGI.comの残りの部分)に無制限にアクセスしたい場合は、私の紹介リンクから1か月5ドルでサインアップできます。一般的なサインアップページを経由してサインアップするよりも追加費用はかかりません。小さな手数料が入るため、私の執筆をサポートするのに役立ちます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles