「確率的リンケージは、曖昧なマッチングや用語の頻度ベースのアプローチよりも正確である理由」

「確率的リンケージの正確さ：曖昧なマッチングや頻度ベースのアプローチよりも優れた理由」

異なるレコードリンケージのアプローチは、予測するためにレコード内の情報を効果的に使用していますか？

一般化されたデータ品質の問題は、同じエンティティを参照する複数の異なるレコードがあるが、これらのエンティティを結びつける一意の識別子が存在しないことです。

社会保障番号のような一意の識別子がない場合、名前、性別、誕生日などの個々に一意ではない変数の組み合わせを使用して個人を特定することができます。

レコードリンケージの最高の精度を得るには、この入力データからできるだけ多くの情報を引き出すモデルが必要です。

この記事では、Fellegi-Sunterモデルで使用されるSplinkによって、正確な予測を行うために最も重要な3つの情報の種類と、これらの3つの情報がどのように活用されるかについて説明しています。

また、いくつかの代替レコードリンケージのアプローチがこれらの情報の一部を捨ててしまい、正確さが低下してしまう方法についても説明しています。

3つの情報の種類

大まかに言えば、2つのレコードが一致するかどうかを予測しようとする際に関連する3つの情報のカテゴリがあります：

2つのレコードの類似性
全体的なデータセットにおける値の頻度、およびより広い意味での異なるシナリオの一般性の測定
全体的なデータセットのデータ品質

それぞれ順に見てみましょう。

1. 2つのレコードのペアワイズな比較の類似性：ファジーマッチング

2つのレコードが同じエンティティを表すかどうかを予測する最も明白な方法は、列に同じまたは類似した情報が含まれているかどうかを測定することです。

各列の類似性は、テキストの場合にはLevenshteinやJaro-Winkerなどのファジーマッチング関数、または絶対値やパーセンテージ差などの数値の差を使って量的に測定することができます。

例えば、HammondとHamondのJaro-Winkler類似度は0.97（1.0は完全な一致です）。おそらくタイプミスです。

これらの測定値には重みを割り当て、合計の類似スコアを計算することができます。

このアプローチは、ファジーマッチングとして知られることもあり、正確なリンケージモデルの重要な要素です。

ただし、このアプローチだけを使用することには、主な欠点があります：

異なるフィールドの重要性は、ユーザーによって推測する必要があります。たとえば、年齢の一致にどのような重みを割り当てるべきですか？これは、名前の一致と比較してどのようになりますか？情報が一致しない場合にはペナルティの重みの大きさをどのように決定するべきですか？
予測の強度と各ファジーマッチング指標との関係は、ユーザーによって推測されなければならず、推定されなければなりません。たとえば、一致率がJaro-Winkler 0.9である場合と完全一致の場合とでは、予測がどれだけ変わるべきですか？Jaro-Winklerのスコアが0.8に減少した場合、同じだけ変わるべきですか？

2. 全体的なデータセットにおける値の頻度、またはより広い意味での異なるシナリオの一般性の測定

全体的なデータセットにおける値の頻度（時には「用語の頻度」とも呼ばれる）を考慮することで、ファジーマッチングを改善することができます。

たとえば、John対John、およびJoss対Jossは両方とも完全一致なので、同じ類似スコアを持ちますが、後者の方がマッチのより強力な証拠となります。なぜなら、Jossという名前は珍しいからです。

JohnとJossの相対的な用語の頻度は、これらの異なる名前の相対的重要性のデータ駆動型の推定値を提供し、重みづけに使用することができます。

この概念は、完全に一致しない類似の記録も含めるように拡張することができます。データセット全体でぼやけた一致がどれくらい一般的に観察されるかの推定から重みを導くことができます。たとえば、ジャロ・ウィンクラースコアが0.7でのぼやけた一致が本当に一般的である場合、一致が観察されてもそれは一致の証拠としてはあまり有力ではありません。確率的リンケージでは、この情報は確率というパラメーターでキャプチャされます。詳細はこちらで説明されています。

3. 全体のデータセットのデータ品質: 非一致情報の重要性の測定

ぼやけた一致や用語の頻度ベースのアプローチによって、レコード間の類似性をスコアリングし、ある程度まで列ごとの一致の重要性を重み付けすることができることを見てきました。

ただし、これらのテクニックのどれも、予測される一致確率における非一致の相対的な重要性を定量化するのに役立ちません。

確率的な手法では、非一致の場合のシナリオの相対的な重要性を明示的に推定することで、データ品質を推定します。確率的リンケージでは、この情報は確率でキャプチャされます。詳細はこちらで定義されています。

たとえば、性別変数のデータ品質が非常に高い場合、性別の非一致は2つのレコードが正確に一致していない証拠となります。

一方、数年にわたってレコードが観察されている場合、年齢の非一致は2つのレコードが一致している証拠とはなりません。