「捕獲再捕獲法」
捕獲再捕獲法
集計せずに人口サイズを推定する方法
この記事では、完全に数えることなく人口のサイズを推定するための統計的な方法である「捕獲再捕獲法」を紹介したいと思います。生物学の領域から来たこの手順は、データサイエンティストや関連する職業にとって興味深い場面やシナリオだけでなく、他の多くの分野にも適用することができます。
まず、生物学の例を使って手順を説明し、その後、統計的な背景とその使用を可能にする特性について説明します。その後、さまざまな領域の例を示し、捕獲再捕獲法が異なるシナリオに対してどのような能力を持っているかを示します。
私の庭には何匹のカタツムリがいるのでしょうか?
私の庭には何匹のカタツムリが生息しているのか知りたいとします。私は全てを数えようとしてみるかもしれませんが、それがいつ終わるのかをどうやって知ることができるでしょうか?たとえもうカタツムリを見つけられなくなっても、まだいくつか残っている可能性があるからです。代わりに、別の方法を使うことができます。
最初の日に、半時間をカタツムリの収集と数え上げに費やします。さらに、それぞれに点のペイントを施してから庭に再び放します。たとえば、21匹のカタツムリを収集しました。この時点で庭全体のカタツムリの数をすでに推定することができるでしょうか?いいえ、まだできません(21匹以上はいるという事実を除いて)、まだ終わりではありません。
- VoAGIニュース、9月13日:5つのステップでSQLを始める • データサイエンスにおけるデータベース入門
- 「ウィーンのオープンデータポータルを利用した都市緑地の平等性の評価」
- 「VoAGI調査:データサイエンスの支出とトレンド2023 H2における同業他社とのベンチマーク」
1日後、再び庭に行って半時間カタツムリを数え始めます。その日に見つけたカタツムリの中には、すでに殻に点のペイントが施されているもの(つまり、前日に見つけたもの)と、されていないもの(つまり、前日にその特定のカタツムリは見つけられなかったもの)があります。たとえば、その日に28匹のカタツムリを数えましたが、そのうち9匹はすでに点のペイントが施されています。これで全体のカタツムリの数を推定することができます。計算してみましょう。
2日目には、前日に見つけたカタツムリの比率が9/28です。この比率は、初日に見つけたカタツムリの数と全体のカタツムリの数の比率と等しくなるはずです。つまり、21/N = 9/28となります。ここでNはカタツムリの総数です。これを再構成してカタツムリの数を求めると、N = (21*28)/9 = 65となります。
なぜそうなのでしょうか?2日目には、ある割合の個体(p%とします)がある特性(つまり、点のペイントが施されていること)を持っています。個体群から無作為にサンプルを抽出すると、サンプルのp%が同じ特性を持っていることを期待します。これは非常に直感的なことです:自分の都市の人口から無作為にサンプルを抽出すると、サンプルの性比率が全体の性比率を反映していることを期待するでしょう?ただし、2日目にはこの比率pを知っているのに、1日目には知らなかったのです(初日にカタツムリに点のペイントを施したとき、すでに捕獲したカタツムリの割合を知りませんでした)。したがって、初日には全カタツムリのp%を点のペイントしました。そこから総カタツムリ数を求めるのは簡単です:21匹のカタツムリをペイントしたので、これが全体の32%に相当することがわかっていますから、おおよそ65匹のカタツムリがいます(21匹が65匹の32%にほぼ相当します)。
再捕捉の条件
庭のカタツムリの数を数えるだけでなく、前述の手順を適用できる他のシナリオもあります。2回のサンプリング間の距離が1日である必要はなく、マーキングは文字通り個々にマーキングする以外の方法でも行うことができます。第1ラウンドで引いた個人のリストを保持するだけでも構いませんが、第2回の反復で見つかった個人が既にリストに存在しているかどうかを簡単に判断できる必要があります。ただし、Capture-ReCaptureメソッドを適用するためには、以下の条件を満たす必要があります:
- データ収集の両方のポイントで、人口は同じでなければなりません。特に、2つの時点の間で個人が追加または削除されていないことを要求します。
- データ収集の両方のポイントで、ランダムかつ独立に抽出する必要があります。つまり、各個人が捕捉される可能性が同じでなければなりません。特に、マーキングの有無によっても他の機会で引かれる可能性に差が生じてはなりません。
- 各機会で引かれる個人の数は、有意なオーバーラップを作成するために十分な大きさでなければなりません。数百万冊の本がある地元の図書館から各々100冊をランダムにサンプリングする場合、オーバーラップはまったく生じず、推定に役立ちません。
使用例
Capture-ReCaptureメソッドを理解したので、使用する場面についていくつか見てみましょう。完全に数えることができない状況で人口のサイズを決定したい場合に便利です。ただし、異なるシナリオには考慮すべきメソッドの前提条件に異なる落とし穴があるかもしれません。
パーティーの参加者数を数える
次に参加するパーティーでは、数分間でいくつかの個人をマーク(文字通りマーキングするか、リスト化することでも可)し、数分後に再びランダムな個人を引きます。ただし、本当にランダムかつ独立に引くようにしてください。つまり、場所に関係なく人々を捕捉し、知っている人や知らない人に偏ることはありません。また、データ収集の2つのポイントの間の距離が大きすぎないように注意してください。さもないと、推定値はその間に人々がパーティーを去ったという事実によって偏る可能性があります。
2つの独立したリストからの捕捉
Capture-ReCaptureメソッドのバリエーションでは、異なる時点での再捕捉ではなく、2つの独立したデータソース(同じ分布から引かれたもの)とそのオーバーラップが使用されます。この方法は医学的なシナリオでよく使用されるため、疾患の有病率を推定する例を見てみましょう。
ある病院から142人の特定の病気を持つ患者のリストがあり、国立保健サービスからは同じ病気を持つ442人のリストがあります。両方のリストに71人が登場しているとします。その場合、上記の式を使用して結果を得ることができます(142*442)/71 = 884です。つまり、884人がその病気に罹患していると推定されます。
このバリエーションでは、2つのリストが実際に独立していることが非常に重要です。つまり、一方のリストの一部であるかどうかにかかわらず、個人が他のリストの一部であるかどうかによって、個人が一方のリストの一部であるかどうかの可能性が異なるべきではありません。
潜在的な顧客の数を推定する
あなたが息をのむほど素晴らしい新製品を販売するウェブサイトを持っているとしましょう。ある日、ウェブサイトの訪問者全員(例:IPをトラッキングすることによって)をキャプチャし、後日同じことを行います。2つの日に重なる部分から、製品の潜在的な顧客数を推定することができます。ただし、このシナリオには重要な仮定の違反が容易に含まれる可能性があることに注意してください。つまり、2つのキャプチャの間で独立した抽選が行われるということです。特に、1日目にウェブサイトを訪れることが、再びウェブサイトを訪れる可能性を高めることができると主張することができます。
概要
これまでにキャプチャー・リキャプチャー法のいくつかの例を見てきました。この法は、集団のサイズを完全に数えることなく推定することができます。集団の個々の個体を数える代わりに、この法では集団の2つの独立したサンプル(時間的に異なる時点でのサンプルまたは異なるソースからのサンプル)を抽出し、それらの重なりを使用して集団のサイズを推定します。これは、集団の完全な観察が不可能な場合に、さまざまな領域で使用することができます。
さらなる読み物
庭のカタツムリを数える例は、以下の書籍から引用しました:
- Kit Yates(2019)。The Math of Life and Death. Why Math Is (Almost) Everything. Quercus Editions Ltd, London.
医学の領域で使用されるキャプチャー・リキャプチャー法の概要は、以下で見つけることができます:
- Ramos, P. L., Sousa, I., Santana, R., Morgan, W. H., Gordon, K., Crewe, J., … & Macedo, A. F. (2020). A review of capture-recapture methods and its possibilities in ophthalmology and vision sciences. Ophthalmic Epidemiology, 27(4), 310–324.
この記事が気に入りましたか?私の将来の投稿の通知を受けるために私に従ってください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「PyGraftに会ってください:高度にカスタマイズされた、ドメインに依存しないスキーマと知識グラフを生成する、オープンソースのPythonベースのAIツール」
- 「コンピュータビジョンと言語モデルが見たものを理解する手助け」
- 「パインコーンベクトルデータベースの包括的なガイド」
- 「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」
- 「PandasAIを用いたデータ分析における生成型AIの活用」
- 「私たちはデータサイエンスシステムを仮想化すべきでしょうか – それともしないべきでしょうか?」
- ベクトルデータベース:それは何か、そしてなぜそんなに話題なのか?