逆転!シンプソンのパラドックス【ChatGPT統計解析】
シンプソンのパラドックスは、異なるグループのデータを結合すると、関連性の方向が逆転する現象です。例として、A病院とB病院での肥満患者の割合を比較する場合、全体のデータではA病院の割合が高いように見えますが、性別で層別解析を行うと、男性でも女性でもB病院の方が高く、結果が逆転します。このパラドックスは、性別など特定の要因を考慮することで正確な解釈につながりますが、データ解釈には慎重さが求められます。統計学だけでなく、様々な分野で見られるこの現象は、因果関係の理解において重要な意味を持ちます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
シンプソンのパラドックスとは
シンプソンのパラドックスとは、複数のグループからのデータを結合したときに関連の方向が逆になる状況です。
信じがたい話ではありますが、集団全体を分母とした場合と、集団を男女別でみてそれぞれを分母とした場合で、結果の解釈が180度変わってしまう場合があるのです。
BMIが30以上の肥満患者の割合について、A病院とB病院で比較したところ、表のような結果が得られました。
事象Rは肥満である(BMI30以上)という事象を、 は肥満でない(BMI 30未満)という事象をあらわします。
A病院では肥満の割合は20/40=0.5となり、
B病院では16/40=0.4となりました。
これより、A病院のほうがB病院より肥満患者の割合が多いことがわかりました。
ところが、ある医師が性別によって結果が異なるかもしれないと、性別を考慮してデータを見たところ、以下の表のような結果が得られました。
このとき、男性(M)についての肥満の割合は、
A病院では18/30=0.6
B病院では7/10=0.7
女性(F)についての肥満の割合も同様に考えると、
A病院では2/10=0.2
B病院では9/30=0.3
すなわち、男性であれ女性であれ、B病院のほうがA病院より肥満の割合が多いことになります。
全体で見た場合と全く逆の結論になってしまうのです。
これをシンプソンのパラドックスといいます。
このデータの解釈としては、性別が肥満に結果を及ぼす要因であるとすれば(ここが難しいところで、男性の方が肥満が多いという根拠はどこにもない)、性別別に解析した結果の方がより条件の揃った結果ということでB病院の方が多いという結果を採択することになります。
層別解析
集団の条件をそろえるために小集団で解析することを層別解析といいます。
では何でも層別に細かく解析したほうがよいかというと必ずしもそうではありません。
集団を小さくすればするほど、得られた結果は誤差の影響を受けることになりますので、バランスが重要になります。
シンプソンのパラドックスのように、集団の分母を細分化すると全く異なった解釈となってしまう場合があります。
結果の解釈に影響を与える要因を含むデータでは、層別解析が有効な場合があります。
野球でのシンプソンのパラドックス
このパラドックスは野球ファンの間でよく知られています。
例えば、2年間の各年では選手Bの方が選手Aよりも打率(安打の割合)が高いが、2年間のデータを結合すると選手Bの方が選手Aよりも打率が低くなる場合があります。
選手Bの方が各年では打率が高いが、2年間を通すと低くなります。
この現象は、年ごとの各選手の観測事例数が異なるために生じます。
シンプソンのパラドックスは、数年前、大学入学における性差別議論の原因になりました。
入学は学科ごとに判断され、ほとんどの女性は入学が認められた志願者の女性割合が低い学科に志願したのに対し、ほとんどの男性は入学が認められた志願者の男性割合が高い学科に志願したという事実によって見かけの性差別(大学入学が認められた男性よりも女性の割合が低い)が説明できることが示されたため、カリフォルニア大学に対して申し立てられた告訴は却下されました。
実際には、ほとんどの学科で女性よりも男性の方が合格率はわずかに低かったが、この差はすべての学科の合格者データを結合すると逆になりました。
また、シンプソンのパラドックスは2つの標本のそれぞれでは治療Aの方が治療Bよりも優れているが、標本を結合すると劣っている場合の治療法の評価でも見られます。
このような状況はパラドックスと呼ぶべきではないと主張する統計家もいます。
これをパラドックスと呼ぶと、2変数に因果関係があることを暗示するからです。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
シンプソンのパラドックスについて解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
シンプソンのパラドックスは、データを分析するときに起こり得る不思議な現象の一つです。異なるグループに分けてデータを見た時と、全部を一緒に見た時で、結果が真逆になることがあります。例えば、ある学校で男女の合格率を調べたとします。男性と女性、それぞれの科目ごとに見ると、女性の方がどの科目でも合格率が高い。でも、全ての科目を合わせて全体の合格率を見ると、男性の方が合格率が高いという結果になることがあります。これはなぜかというと、科目によって受験者数が違うからです。もし女性が特に合格しやすい科目に少なく、男性が多く挑戦していたら、全体としては男性の合格率が高く見えることがあります。つまり、シンプソンのパラドックスは、データを細かく分けて見るか、全体として見るかによって、結果が変わってしまうことを示しています。これは、データを分析する際に、背後にある条件や文脈をしっかりと考えることの重要性を教えてくれます。