なぜ仮説検定はハムレットからヒントを得るべきか

Why hypothesis testing should take a cue from Hamlet

シミュレーションするべきかしないべきか、それが問題だ

もし、あなたが科学者やデータの専門家であるなら、あなたの仮説検証プロセスに、悲劇的に、または悲喜劇的に、一般的なコースワークから抜け落ちている重要なステップがあるかもしれません。しかし、このブログ記事では、あなたにその欠落部分を示し、なぜ修正方法が舞台俳優の演技指導にあるのかを説明します。

Hamlet in the style of Kehinde Wiley, generated by the author with Midjourney .

(注:この記事のリンクは、同じ著者による説明書にリンクしています。)

第一幕、第一場

場面は、あなたが実際のデータを収集するための予算を得たことで勝利を収め、物語が始まります。もしかすると、すべてがデジタルであるかもしれません。エンジニアリングチームにどの変数をログに記録するか、またはどのオンライン実験を実行するかを伝えるために出かけるのです。あるいは、センサーを設定したり、パイペットを準備したり、データを手に入れるために必要なその他のことを行うために、物理的な世界に出かけるかもしれません。(現実世界からの計測の実用側面について興味がある場合は、私の木のサンプリングに関する記事をご覧ください。)

しかし、そんなに急がないでください!何をやっているかわからない場合はどうでしょうか?あなたのチームの大切な時間を浪費することになりますし、実際のデータ収集プロセスの現実の部分を台無しにするのは非常に恥ずかしいことです。すべてがデジタルであっても、エンジニアリングチームに尻尾を巻いてやり直してもらうことは本当にしたくありません。

しかし、どのようにして、正しい方法で正しいことをログに記録したことが確認できるのでしょうか?そのようなトリックがあるので、心配はありません。そして、そのトリックは、後になって非常に明らかになります……それがあなたの教授があなたに教えるのを忘れた理由かもしれません。

トリックは、演劇俳優の演技指導からページを引き出すことです!

Theatre stage with wine glasses in the style of Kehinde Wiley, generated by the author with Midjourney.

もし、劇場俳優がパフォーマンスが下手になることを心配して、開演前に何をするのでしょうか?(飲むわけではありません。)

リハーサルをします!

あなたもリハーサルをすることができます。データを収集する前に、観客以外のすべてを揃えたドレスリハーサルを設定してください。ええ、観客?私が言いたかったのは、実際の世界のデータ以外のすべてです。

ドレスリハーサル

データサイエンスにおいて、ドレスリハーサルは、偽のがしかし可能性はあるデータセットを作成することを意味します。これをシミュレーションと呼びます。

偽のがしかし可能性はあるデータをシミュレーションするという概念についてよく知らない場合は、このブログ記事にアクセスして、説明する代わりに示すようにモードを切り替えた例を見てください。コードベースとスプレッドシートベースの例があります。シミュレーションがどのように見えるかのメンタルイメージを形成したら、こちらを読み続けてください。

ドレスリハーサルデータをシミュレートするときには、あなたがコントロールできる明確なストーリーを作り出すことを確認してください。シミュレーションパラメータを設定して、1つのアクションを取ることが望ましい小さな世界を作成し、そのデータを生成して分析してみてください。分析の最後で正しい決定を回復できるようにしてください。回復できない場合、あなたの統計計画が間違っているか、十分なデータがない可能性があります。これらの警告信号を早期に取得することは常に良いことです。

おそらく、もっと重要なことは、最初からデータを異なる方法で設定すべきだったと後で気付くことがよくあることです。偽のデータを分析するときに、「この追加の列があったら、すべてがうまくいくのに……」と思うことがあるかもしれません。

それでは、GIGOを未然に防止するために、今すぐそのことを見つけ出す時です。本物のデータを収集した後になっては、時間とコストがかかりすぎます!

一度きりのチャンスを無駄にしないでください

あなたのデータセットが完璧でも、提案された手法がそれに最適でない場合があります。残念ながら、比較的高度なことをしていない限り、実際のテストデータセットは1回しか使用できないことを知っておく必要があります。1度きりのチャンスです。機械学習モデルをトレーニングする場合と同じように、異なる手法を試すことはできません。統計的推論は残酷な認識の試みであり、あなたの気持ちにとってどのようなことも気にしません。1度きりのチャンスです。データの再利用は許可されません。

テストデータの再利用は、統計的な品位に対して犯すことができる最大の罪の1つであり、あなたの教育が不足している同僚たちは、このような間違いを頻繁に犯すという事実は無害であるということではありません。

貴重な最終データセットでの手法の選択をいじくり回すことは決してしないでください。あなたには1度きりのチャンスしかありません。無駄にしないでください。

テストデータに適した異なる手法を試す場合は、同じ構造の別のデータセットが必要です。十分なデータがある場合は、それを分割します。まだデータがない場合は、方法論的アプローチを計画するために偽のデータをシミュレーションします。貴重な最終データセットでの手法の選択をいじくり回すことは決してしないでください。あなたには1度きりのチャンスしかありません。無駄にしないでください。

そして、データを取得する前にシミュレーションを使用することが、ドレスリハーサルのコンセプトから完全に盗用された非常に有用なトリックである理由です。

シミュレートするか、しないか、それが問題だ:

心の中でより高貴なのは、

ひどい運命のスリングと矢を受けること

または問題の海に対して武器をとること

そしてそれらに反対することで終わらせることです。

Thanks for all the fingers, Midjourney. ❤

読んでくれてありがとう! YouTubeコースはいかがですか?

ここで楽しんでいただけた場合は、初心者からエキスパートまで楽しめるように設計された完全な応用AIコースをお探しの場合は、こちらがあります:

こちらでYouTubeコースをお楽しみください。

追伸:VoAGIで拍手ボタンを複数回押して何が起こるか試したことがありますか? ❤️

著者が気に入ったら、Cassie Kozyrkovにつながってください

友達になりましょう!Twitter、YouTube、Substack、LinkedInで私に会えます。あなたのイベントで話をすることに興味がありますか?このフォームを使ってご連絡ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more