データサイエンスプロジェクトを効果的に構造化する方法

データサイエンスプロジェクトの効果的な構造化方法

PSWツールの使用方法の簡単な説明

UnsplashのRoss Sneddonさんによる写真

導入

私は以前、さまざまな回帰や分類のタスク、類似モデルやレコメンデーションシステム、NLPの問題、予測分析など、様々なデータサイエンスプロジェクトに取り組んでお客様をサポートしていました。

お客様は通常、仕事の日常に忙しく、プロジェクトで何を見たいのかを詳細に説明するために長時間のミーティングを予定する余裕がありません。したがって、詳細でよく構造化されたアジェンダを持つことが非常に重要です。

専門家との通話では、お客様のニーズを完全に理解するためにPSW(または問題文ワークシート)アプローチをよく活用しています。

PSWは、主にコンサルティングで使用されるビジネスタスクの説明テンプレートですが、ほとんどのITプロジェクトにも完璧に適しています。

この記事では、PSWツールの使用方法を紹介し、データサイエンスプロジェクトのキーポイントをよりよく理解し、クライアントとのミーティングをより一貫性と簡潔さを持たせるために最大限に活用する方法を説明します。

通常、PSWには以下の6つの主要なブロックが含まれます:

  • 背景。このブロックにはプロジェクトの現状とその開始を引き起こした課題に関する簡単な情報が記載されます。
  • 成功の基準。このブロックでは、プロジェクトの課題の解決に対する可能な意思決定の評価方法や、すべての基準の重要度の順位付けを把握することが重要です。
  • 解決空間の範囲。このブロックでは、分析の境界がどこにあるのかを理解することができます。顧客とは、考慮に含めるべきでない範囲を明確にすることが最善です。
  • 解決空間内の制約。ここでは、意思決定空間で発生する可能性のある障壁を概説します。使用する特定のプログラミング言語、モデルの要件、予算の制約などが該当します。
  • ステークホルダー。このリストには、意思決定に影響を与える人々とプロジェクトの成功に関与する人々が含まれます。これらの人々は、意思決定を行う人、助ける人、妨害する人に分けることができます。
  • 洞察の主要な情報源。このブロックは、「プロジェクトのタスクを解決するためのデータはどこから取得するか?」という質問に答えることを意図しています。本や関連する研究論文、最新の業界レポート、類似のプロジェクトなどの情報源を関連グループに分けることが望ましいです。

以下では、それぞれのブロックについて個別に検討し、情報をどのように埋めるかの例を示します。

1. 背景

UnsplashのKeith Misnerさんによる写真

これは最初のブロックであり、通常はお互いの挨拶の後に自然に起こります。ここでは、お客様にプロジェクトに関する少し詳しいコンテキストを提供してもらうように頼むことがよくあります:なぜそのプロジェクトが発生し、会社にとってなぜ重要なのかなど。一方で、これらの詳細はプロジェクトの微妙なニュアンスに深く潜るための堅固な基盤を作り、他方ではプロジェクトの主な目標の策定に役立ちます。

プロジェクトの目標を一文で定義できれば、プロジェクトを完全に理解しています。

以下は、顧客の情報を元にした背景セクションの典型的な例です:

どのモバイルアプリも、ユーザーのニーズを考慮して、最も便利なソリューションを提供する必要があります。ユーザーは特定の目的でアプリに入り、特定のアクションを実行するために入ります。しかし、このシーケンスは、画面に推奨事項を追加することで短縮することができます。例えば、他のユーザーへのトランザクションをより速く行うために。そこで、機械学習(ML)ベースのレコメンデーションシステムが助けになります。

プロジェクトの一部として、各ユーザーの連絡先を送金額に応じてランク付けする必要があります。モデルのトレーニングの試みはすでに行われており、ベースラインはすでに利用可能ですが、MLレコメンデーションアルゴリズムを適用しながらその精度を5%以上向上させることが今のタスクです。

ご覧の通り、背景ブロックは、プロジェクトのタスクをビジネスの一般的な文脈に合わせて適合させるのに役立ちます(アプリをさらに使いやすくする)し、必要な場合にはグローバルな目標を考慮に入れて調整することもできます(それに基づいた機械学習ベースの推薦システムの適用)。

2. 成功の基準

Guille Álvarez氏による写真

ここでは、クライアントに対してプロジェクトの主な評価パラメータ「プロジェクトの成功」を判断するために使用される基準について尋ねることができます。これには財務指標(コスト削減など)や非財務指標(アプリのアクティブユーザー数、構築されたモデルの精度など)が含まれます。具体的な基準に加えて、顧客の測り知れない希望についても把握することが重要です。おそらく、提案された対策によって顧客の企業文化が革新されるかもしれません(なぜ革新できないのでしょう?!)。

モバイルアプリと推薦システムの例を続けると、このプロジェクトの可能な成功基準は以下の通りです:

1) システムのための機械学習モデルの選択が適切に説明されている。2) ベースラインモデルが5%以上改善されている。3) モデルの実行速度は、起動から結果を受け取るまでの時間が6時間以下である。4) 利用可能なデータでモデルのパフォーマンスをチェックする-テストセットでの精度が85%以上である。

3. ソリューションスペースの範囲

Nicolas Lobos氏による写真

ここでは、プロジェクトの範囲の境界を理解することが重要です。PSWのこのブロックには、プロジェクトの背景(なぜプロジェクトのトピックが重要で現在関連しているのか、市場に既存のソリューションやベンチマークがあり、それらをさらに変更して顧客の要件を満たすことができるのか)が含まれることがよくあります。

推薦システムについて話す場合、それらを作成するためのいくつかのアプローチがあることを念頭に置いておく必要があります。

コンテンツに基づく方法(コンテンツベース)、知識に基づく方法(知識ベース)、協調フィルタリングを利用する方法(協調フィルタリング)、またはハイブリッドアプローチを使用する方法などが考えられます。ハイブリッドシステムは、複数のシステムの利点を組み合わせることで、一括の推薦ツールになることができます。

4. ソリューションスペース内の制約

Joshua Hoehne氏による写真

このブロックでは、受け入れ可能なソリューションと受け入れられないソリューションの範囲を明確にしたいと思います。直接顧客に尋ねることができます。「制約は何ですか?」という質問が役立ちます。ここでは、方法/技術/プログラミング言語に関する制限について聞くことができます。分析したプロジェクトでは、MLモデルのトレーニングにオープンソースのデータセットを使用する制約や、得られた結果の再現性に関連する制約がありました。後者は、詳細なプロジェクトの説明を含むREADMEファイルを提供することで達成できます。

1. サードパーティのソースの使用制限:推薦システムの開発時には、モデルの事前トレーニングにオープンデータを使用しないでください。2. 実装されたアプローチの再現性:別のPCでモデルを再起動する際には、同様の結果が得られるべきです。

PSWのブロック3と4は混同されることがあります。実際には、ソリューションスペースと制約の違いをどのように理解すればよいのでしょうか?例を見てみましょう。

昔の手紙を見つけたと想像してください。祖父が何年も前に家の裏庭に金の宝箱を隠したと書いています。具体的な場所は指定されていませんので、裏庭全体がソリューションスペースになります。この手紙を読んだ後、できるだけ早く宝を見つけたいと思い、エスカレーターを使って探すことを考えます。残念ながら、裏庭は囲まれており、エスカレーターでそこに行くことはできません。この場合、エスカレーターを使用できないことは、明確なソリューションスペース内の制約となります。

Jean-Frederic Fortier氏による写真Unsplash

5. ステークホルダー

airfocus氏による写真Unsplash

このPSWのブロックは、プロジェクトの実装時に考慮すべき人々の意見を示しています。通常、ステークホルダーはプロジェクトの結果に関心を持つ人々です。プロジェクトチームのメンバーやプロジェクトマネージャー、幹部、プロジェクト投資家、顧客、エンドユーザーなどが該当します。

ステークホルダーは、プロジェクトのライフサイクルのいずれかの段階で影響を受ける人々であり、彼らの入力は直接的に結果に影響を与える可能性があります。推薦システムの開発の場合、このシステムのアプリへの統合は、主に以下の2つの主要なグループに利益をもたらすでしょう:

1)このシステムを使用することで時間を節約するモバイルアプリのユーザー。2)彼らの製品をより機能的にすることでユーザーのロイヤリティを向上させるアプリケーション開発者。

6. 主要な情報源

Susan Q Yin氏による写真Unsplash

通常、このブロックには、トピックを完全に理解するのに役立つ関連する情報が含まれています。たとえば、オープンソースのAPIライブラリ[1]、チュートリアル[2]、リポジトリ、研究論文などへのリンクです。

ここで重要なのは、顧客にこのプロジェクトに関してこれまでに行われたことについて尋ねることです。そして、もしそうなら、プロジェクトの最初のステップを行う際に実装がうまくいった部分とそうでなかった部分を共有するように依頼してみてください。これにより、プロジェクトの可能なさらなる行動や方向についてのヒントが得られます。

推薦システムを備えたデータサイエンスプロジェクトの場合、機械学習や予測分析の分野の記事を含む、さまざまな資料を使用してください。たとえば、この業界の最新の成果についての包括的なレビューが良い出発点となるでしょう[3]。

ランキングやおすすめの類似の問題を解決するための最新のアプローチに焦点を当ててください。

結論

この投稿の情報が、クライアントのミーティングに十分に準備し、適切な質問をするのに役立つことを願っています。

以下に、PSWメソッドに関する主要な洞察をまとめます:

  1. PSWを適用する際には、顧客が伝えたすべての瞬間を記録することを忘れないでください。私は通常、データサイエンスプロジェクトの実装中に使用する単一のフォローアップファイルにすべての情報をまとめます。
  2. PSWツールは、クライアントのミーティングだけでなく、データサイエンスプロジェクトグループの新規参加者がより経験豊富なプロジェクトグループメンバーに貴重な質問をする際にも役立ちます。
  3. PSWは素晴らしい使いやすいツールですが、魔法のような「ワンサイズフィットオール」の解決策ではありません。場合によっては機能しないこともあります。

一般的に、PSWアプローチは、クライアントからの入力とタスクの解決の初期段階の試行を伴うデータサイエンスプロジェクトに適しています。この場合、クライアントはPSWの助けを借りて一緒にチャレンジを解決するための情報を共有することができます。ただし、プロジェクトが多くの未知の洞察と不明瞭な展望を持つ場合、PSWツールを適用することは困難です。たとえば、クライアントがまだ開始していないデータサイエンスプロジェクトのアイデア生成を要求した場合、PSWメソッドは適用できず、別の手法を選択する必要があります。

読んでいただきありがとうございました。プロジェクトがうまくいくことを祈っています!

参考文献リスト

  1. レコメンデーションを提供するレコメンデーションREST API:https://github.com/recommender-system/reco-api?ysclid=lll99344l9788228410
  2. 初心者向けチュートリアル:Pythonにおけるレコメンデーションシステム:https://www.datacamp.com/tutorial/recommender-systems-python
  3. マルチモーダルレコメンデーションシステムに関する包括的な調査:タクソノミー、評価、および将来の方向:https://arxiv.org/pdf/2302.04473.pdf

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more