理系のブログ

【悪用厳禁】京大生が教える数学の悪用方法【シンプソンのパラドックス】

理系のブログ

シンプソンのパラドックスとは?

シンプソンのパラドックス

理系の平均点文系の平均点全体の平均点
A高校90点60点66点
B高校80点50点74点
↑A高校の方が高い↑A高校の方が高い↑B高校の方が高い

分割したときの結果と全体の結果の順位が逆になることがある。

この結果、一見どこかおかしいような気もしますが、実はこれで合ってるんです。

ではそれぞれの高校の人数も加味した表を見て見ましょう。

理系の平均点文系の平均点全体の平均点
A高校90点(20人)60点(80人)66点(100人)
B高校80点(40人)50点(10人)74点(50人)
↑A高校の方が高い↑A高校の方が高い↑B高校の方が高い

A高校の全体平均は$(90×20+60×80)÷100$で66点。

B高校の全体平均は$(80×40+50×10)÷50$で74点。

理系平均・文系平均はどちらもA高校の方が高いですが、確かに全体平均はB高校の方が高くなっています。

シンプソンのパラドックスのからくり

下の図は「散布図」と呼ばれるもので、それぞれの人に対するX,Yの値を点で表したものになります。

例えば横軸Xに国語の点数、縦軸Yに数学の点数をとったものだと考えて見ましょう。

ここで、散布図全体では右肩さがりなので国語が高ければ数学は低い(国語が低ければ数学は高い)というように負の相関を持ちますが、いくつかに分割して見てみるとすべて右肩上がりで国語が高ければ数学も高い、つまり正の相関を持つことがわかります。

全体をみたとき
分割してみたとき

この様に、「全体の性質と分割したそれぞれの集団での性質は異なっている場合がある」という逆説をシンプソンのパラドックスといいます。

シンプソンのパラドックスの悪用法

これは販売の営業のときに業績を誇張したい場合などに使うことができます。

例えばとある化粧品を売りたいとしましょう。

次の散布図は化粧品を試した人について、横軸Xが「化粧品の使用頻度」、縦軸Yが「肌の水分量」を表したものです。

このグラフは全体的に見ると化粧品の使用頻度が高い人ほど肌の水分量が少ないことを表しているので、このままの結果を伝えてしまっては「化粧品を使えば使うほどお肌の水分が減り、カサカサになる」ということになってしまいます。

なのでここではシンプソンのパラドックスを使って、化粧品を試した人をすべての区分で正の相関を持つ様に分けてあげます。(地域や年齢など、下図の様に分けれる分け方を探します。)

地域ごとに色分けした状態

すると事実として、「すべての地域で、化粧品を使えば使うほどお肌の水分量が多い」というデータを作り出すことができるので、こちらを伝えればよいわけです。

まとめ

今回はシンプソンのパラドックスを解説しましたが、これのすごいところは『どんなに相関がない場合でも分け方によっては欲しい相関を作り出せる』ということです。

悪用厳禁で行きましょう。

似たような統計学の面白い性質で「生存バイアス効果」というものもありますので、そちらも是非御覧ください。

この記事の執筆者
理系さん

理系の現役京大生。
受験での失敗と成功の経験を生かした理系記事でブログ毎日更新中!Twitterもやっていますのでよかったらフォローよろしくお願いします。

理系のシモンをフォローする
スポンサーリンク
シェアお願いします
理系の地下室

コメント

タイトルとURLをコピーしました