データアナリストのリアルライフでの確率のインタビューの質問

美容とファッションの専門家によるリアルなライフスタイルに関するインタビュー質問

データアナリストの日常業務に確率に関するインタビューの質問を繋げる

Thomasさんの写真

データアナリストやデータサイエンティストの役割に応募する際には、面接でよく確率に関する質問に出くわすことでしょう。しかし、ここがポイントです。これらの問題は実際の仕事とはあまり関係がないと考える人もいます。「サイコロを5回振って6が出る確率を計算する必要があるのはなぜですか?」などという質問が頻繁に出されます。この記事では、確率を理解することが思っている以上に重要である理由を説明するために、実際の例をいくつか共有します。そのために、いくつかの面接課題を取り上げ、それらが現実の世界でどのように応用されるのかを見ていきましょう。

Q1. コインを10回連続で投げるとき、全部が表に出る確率は何ですか?

考えてみてください、あなたがフードデリバリーサービスのデータアナリストであるとします。すべての注文の後、顧客は食品の品質を評価することができます。チームの主な目標は一流のサービスを提供することであり、レストランが悪い評価を受けた場合は調査する必要があります。では、大きな問題は次のようなものです – レストランのチェックは何件の悪い評価がトリガーになるべきなのか、ということです。

時には、レストランはたまにあまり素晴らしくないフィードバックを受けることがあり、それは彼らのせいではありません。レストランが1000の注文を処理した場合、数件の悪い評価を偶然に受けることがあります。

次のように考えてみてください。注文の約5%が偶然にもネガティブな評価になります。そのため、レストランごとの悪い評価の数は二項分布 Bin(n, p) に従います。ここで、「n」は注文の数であり、「p」は悪い評価の確率(この場合は5%)です。

したがって、レストランが100件の注文を受けた場合、7件以上の悪い評価を受ける確率は約23.4%であり、10件以上の悪い評価を受ける確率は2.8%ほどです。この計算はこちらの計算機を使用して確認できます。パラメータはn=100、x=10、p=0.05とし、x≥Xのオプションを選択することを忘れないでください。

筆者の画像

ここからのポイントは、100件の注文のレストランに対して閾値を7件の評価に設定すると、レストランを頻繁にチェックすることになり、それはあなたに余分なコストをかけ、レストランにより多くのプレッシャーをかけることになる点です。

Q2. 52枚の標準デッキからカードを10回引くとき、赤いカードが1枚も出ない確率は何ですか?

さて、自分をeコマースの世界に置いてみましょう。あなたとあなたのチームは新しい支払い方法を導入したばかりで、顧客がこの新機能をどのくらい頻繁に使用しているかに興味があります。ただし、小さなバグのため、新しい支払い方法へのリクエストの約2%が失敗することがあります。言い換えれば、顧客はセッションの98%でこの新しい支払いオプションを表示することができるということです。この支払い方法をどのくらいの頻度で顧客が選ぶかを知りたいのですが、トリッキーな点があります。

ひとつのセッションだけを持つユーザを考えてみてください – 彼らは確率2%で分析から除外します。では、25のセッションを持つユーザを考えてみましょう。彼らにとって、少なくとも1つのセッションでこの機能が利用できない確率は1 – 0.98²⁵ = 39.7%です。したがって、あなたは意図せずに一番忠実な顧客のうちいくつかを除外してしまい、それがあなたの分析結果を歪める可能性があることに注意しなければなりません。

筆者の画像

Q3. サイコロを3回振る場合、2回連続で3が出る確率は何ですか?

あなたがUberのようなライドヘイリング会社で働いていると想像してください。一部の国では、まだ現金で乗車料金を支払う人もいて、ドライバーにとっては手間です。おつりを持ち歩いたり、現金取引を扱ったりする必要があります。

あなたのチームは、ドライバーが3回連続で現金の注文を受けると、おつりがなくなってしまうかもしれないと心配しています。そこで、そのような状況では現金の注文を制限することを考えています。しかし、それを実施する前に、実際にどれくらい頻繁に起こるのかを知りたいと思っています。

ドライバー1日あたりの平均乗車回数が10回であり、そのうち10%が現金で支払われるとします。

したがって、3回連続で現金で支払われる確率は0.1*0.1*0.1 = 0.001です。しかし、1回目、2回目、3回目の乗車でも可能ですし、2回目、3回目、4回目の乗車でも可能です。つまり、3回連続で現金で支払われる確率は8*0.1*0.1*0.1 = 0.008%です。かなり低いようですので、この機能の実装は一旦保留にしておくのが良いでしょう。

Image by the author.

Q4, HIV検査は99%正確です(双方向)。人口の0.3%のみがHIV陽性です。検査結果が陽性の場合、ランダムに選ばれた人がHIV陽性である確率はどれくらいですか?

質問のためのオリジナル記事はこちらです。

あなたは銀行や信用業界におり、顧客がローンを返済するかどうかを予測するモデルを作っています。通常、すべてのローンのうち85%が返済されるとされています。最新のモデルでは、顧客が返済すると予測した場合、92%の正答率があります。しかし、顧客が返済しないと予測した場合は40%の正答率になります。ここで一つ懸念があります:モデルが顧客が返済しないと予測した場合、実際に返済する確率はどれくらいですか?

まず、モデルが「顧客が返済しない」と予測する確率を計算しましょう。これには2つの要素が関係します:

  • ローンを返済しない顧客からこの予測を得る確率: (1–0.4)*(1–0.85) = 0.09
  • 返済する顧客からこの予測を得る確率: (1–0.92)*0.85 = 0.068
  • その後、モデルが返済しないと予測した場合の顧客が実際に返済する確率は、0.068/(0.068+0.09) = 0.43です
Image by the author.

つまり、モデルが顧客が返済しないと予測した場合、実際にはかなり高い確率で返済する可能性があります。

この記事の目的は何でしょうか?それは、確率と組み合わせ論の理解がデータサイエンティストやアナリストにとって重要であることを強調しています。日常生活では、確率の把握が必要な状況に遭遇することがあります。そうでないと、間違った結論を引き出すかもしれません。ただし、雇用主の視点からは、面接の質問はより実践的であり、将来のアナリストがこの知識を実際の仕事にどのように応用できるかを認識できるようにする必要があります。

この記事をお読みいただき、ありがとうございます。皆さんのご意見をお聞かせいただければ幸いですので、コメントやご質問がございましたらお気軽にお知らせください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more