シンプソンのパラドックスとは?
シンプソンのパラドックス
理系の平均点 | 文系の平均点 | 全体の平均点 | |
---|---|---|---|
A高校 | 90点 | 60点 | 66点 |
B高校 | 80点 | 50点 | 74点 |
↑A高校の方が高い | ↑A高校の方が高い | ↑B高校の方が高い |
分割したときの結果と全体の結果の順位が逆になることがある。
この結果、一見どこかおかしいような気もしますが、実はこれで合ってるんです。
ではそれぞれの高校の人数も加味した表を見て見ましょう。
理系の平均点 | 文系の平均点 | 全体の平均点 | |
---|---|---|---|
A高校 | 90点(20人) | 60点(80人) | 66点(100人) |
B高校 | 80点(40人) | 50点(10人) | 74点(50人) |
↑A高校の方が高い | ↑A高校の方が高い | ↑B高校の方が高い |
A高校の全体平均は$(90×20+60×80)÷100$で66点。
B高校の全体平均は$(80×40+50×10)÷50$で74点。
理系平均・文系平均はどちらもA高校の方が高いですが、確かに全体平均はB高校の方が高くなっています。
シンプソンのパラドックスのからくり
下の図は「散布図」と呼ばれるもので、それぞれの人に対するX,Yの値を点で表したものになります。

例えば横軸Xに国語の点数、縦軸Yに数学の点数をとったものだと考えて見ましょう。
ここで、散布図全体では右肩さがりなので国語が高ければ数学は低い(国語が低ければ数学は高い)というように負の相関を持ちますが、いくつかに分割して見てみるとすべて右肩上がりで国語が高ければ数学も高い、つまり正の相関を持つことがわかります。


この様に、「全体の性質と分割したそれぞれの集団での性質は異なっている場合がある」という逆説をシンプソンのパラドックスといいます。
シンプソンのパラドックスの悪用法

これは販売の営業のときに業績を誇張したい場合などに使うことができます。
例えばとある化粧品を売りたいとしましょう。
次の散布図は化粧品を試した人について、横軸Xが「化粧品の使用頻度」、縦軸Yが「肌の水分量」を表したものです。

このグラフは全体的に見ると化粧品の使用頻度が高い人ほど肌の水分量が少ないことを表しているので、このままの結果を伝えてしまっては「化粧品を使えば使うほどお肌の水分が減り、カサカサになる」ということになってしまいます。
なのでここではシンプソンのパラドックスを使って、化粧品を試した人をすべての区分で正の相関を持つ様に分けてあげます。(地域や年齢など、下図の様に分けれる分け方を探します。)

すると事実として、「すべての地域で、化粧品を使えば使うほどお肌の水分量が多い」というデータを作り出すことができるので、こちらを伝えればよいわけです。
まとめ
今回はシンプソンのパラドックスを解説しましたが、これのすごいところは『どんなに相関がない場合でも分け方によっては欲しい相関を作り出せる』ということです。
悪用厳禁で行きましょう。
似たような統計学の面白い性質で「生存バイアス効果」というものもありますので、そちらも是非御覧ください。
コメント