Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】

統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】


統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】

 

目次  統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】

 

シンプソンのパラドックス

 

信じがたい話ではありますが、集団全体を分母とした場合と、集団を男女別でみてそれぞれを分母とした場合で、結果の解釈が180度変わってしまう場合があるのです。

 

BMIが30以上の肥満患者の割合について、A病院とB病院で比較したところ、表のような結果が得られました。

 

事象Rは肥満である(BMI30以上)という事象を、 は肥満でない(BMI 30未満)という事象をあらわします。

 

A病院では肥満の割合は20/40=0.5となり、

 

B病院では16/40=0.4となりました。

 

これより、A病院のほうがB病院より肥満患者の割合が多いことがわかりました。

 

ところが、ある医師が性別によって結果が異なるかもしれないと、性別を考慮してデータを見たところ、以下の表のような結果が得られました。

 

このとき、男性(M)についての肥満の割合は、

 

A病院では18/30=0.6

 

B病院では7/10=0.7

 

女性(F)についての肥満の割合も同様に考えると、

 

A病院では2/10=0.2

 

B病院では9/30=0.3

 

すなわち、男性であれ女性であれ、B病院のほうがA病院より肥満の割合が多いことになります。全体で見た場合と全く逆の結論になってしまうのです。

 

これをシンプソンのパラドックスといいますが、このデータの解釈としては、性別が肥満に結果を及ぼす要因であるとすれば(ここが難しいところで、男性の方が肥満が多いという根拠はどこにもない)、性別別に解析した結果の方がより条件の揃った結果ということでB病院の方が多いという結果を採択することになります。

 

このように集団の条件をそろえるために小集団で解析することを層別解析といいます。

 

では何でも層別に細かく解析したほうがよいかというと必ずしもそうではありません。

 

集団を小さくすればするほど、得られた結果は誤差の影響を受けることになりますので、バランスが重要になります。

 

シンプソンのパラドックスのように、集団の分母を細分化すると全く異なった解釈となってしまう場合があります。

 

結果の解釈に影響を与える要因を含むデータでは、層別解析が有効な場合があります。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】

統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】

統計学のマジック:シンプソンのパラドックス【統計解析講義基礎】