シンプソンのパラドックス:交絡因子が生む統計の逆転劇【ChatGPT統計解析】
シンプソンのパラドックスは交絡因子によってデータの傾向が逆転する現象で、統計的な錯覚を引き起こす。例として、1973年のカリフォルニア大学バークレー校では、男女の入学率に差が見られたが、部局ごとに見ると偏向はなかった。理由は、男女が異なる部局に不均一に出願していたことに起因する。医学分野でも類似の現象が報告されており、ペニシリン投与の観察研究で逆の結果が見られた。これは診療の偏りや非ランダムな割り当てが原因である。誤った結論を防ぐためにはランダム化試験や交絡因子の制御が必要で、段階的回帰よりLASSOを用いた方がよい場合もある。最終的には、モデルの評価には交差検証などが推奨される。統計的な有意性がゼロでないことを理解し、結果の解釈に注意を払うべきだ。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
シンプソンのパラドックスの事例
統計における興味深いパラドックス的帰結について聞かれたら,統計学者は多くの場合,シンプソンのパラドックスを挙げるだろう。
シンプソンのパラドックス(Simpsons paradox)は,交絡因子によって発生するデータ内の明確な傾向が,データを自然なグループに分けることで消え去ったり,ひっくり返ったりすることがあるようなときに生じるものだ。
シンプソンのパラドックスについては多数の事例があるので,まずは最も有名な事例から始めたいと思う。
1973年,カリフォルニア大学バークレー校では,1万2763人分の大学院入学の出願があった。
その年の入学選考において,男性出願者の44%が入学を許可されたが,女性出願者は35%しか入学が許されなかった。
大学事務局は,性差別と告訴されるのを恐れ,何人かの教員にデータを細かく見るように依頼した。
大学院の入学選考は,学部の入学選考とは異なり,部局ごとに独立に行われる。
最初の調査からはパラドックス的な結論が得られた。
バークレーの101個の大学院の部局のうち,女性への入学許可を出さない傾向があるという統計的に有意な偏向があった部局は4つしかなかった。
逆に,6つの部局で男性への入学許可が出にくいという偏向が見られた。
これは,他の4つの部局で起きた女性の不足を打ち消すには十分すぎるものだった。
バークレーにおいて,個々の部局では一般的に女性に対する偏向がないにもかかわらず,全体としては偏向があるように見えたのはどうしてだろうか。
実は,男女がすべての部局で同じ比率で出願しているわけでなかったのだ。
例えば,英語学科の出願者の3分の2が女性だったのに対し,機械工学の出願者では女性が2%しかいなかった。
さらに,他の部局に比べて,選抜がより厳しい大学院の部局があった。
認識されることとなった偏向はこれら2つの要因で説明される。
女性は,財政的支援が少なく,資格のある出願者が多い部局に出願する傾向があった。
逆に,男性は,出願者が少なく研究助成金が余っている部局に出願していた。
バークレーの個々の部局は一般的に公平で,バークレーに偏向はなかったのだ。
だが,教育の過程をさらにさかのぼれば,女性たちは大学院生になれる機会が少ない研究分野に追いやられていたことになる。
シンプソンのパラドックスは,腎結石を取り除く外科的手法を扱った1986年の研究でも発生している。
何百もの診療記録を分析したところ,経皮的腎切石術という,腎結石を取り除くための侵襲性が最小限の新しい手法は,伝統的な開腹手術に比べて成功率が高かった。
伝統的な方法の成功率が78%であるのに対して,新しい方法の成功率は83%だった。
しかし,もっと細かく見てみたところ,傾向は逆転した。
データを小さな腎結石と大きな腎結石という2つのグループに分けると,どちらのグループでも経皮的腎切石術の方が成績が悪かった。
どうしてこうしたことがありえたのだろうか。
問題は,この研究でランダムな割り当てがなされなかったことだった。
この研究は診療記録の単なる再分析に過ぎなかった。
そして,医師の患者の扱い方に系統的な偏りがあったことが後から分かった。
大きくて取り除きにくい腎結石の患者には開腹手術が行われたのに対し,小さくて取り除きやすい結石の患者には腎切石術が行われた。
おそらく,小さな結石の患者には新しくて慣れない手法を用いる方が医者にとっては気楽で,難しい症例だと逆に開腹手術になったのだろう。
新しい手術は必ずしも優れているものではなかったのだが,治療が容易な患者に試されていたのだ。
外科医の自由裁量によらず,ランダムな割り当てによって手術方法が選ばれたとしたら,そのような偏りはなかっただろう。
一般的に言えば,ランダムな割り当てを行うことによって,交絡変数を打ち消し,シンプソンのパラドックスのせいで逆の結果が出ることを防ぐことができる。
これに対して,純粋な観察研究は特にこのシンプソンのパラドックスの影響を受けやすくなっている。
この問題は,次の例でも示すように医学ではありふれたものだ。
細菌性髄膜炎は脳と脊髄を取り囲む組織での感染症で,急速に進行し,即座に治療をしないと特に子どもに対しては永続的な損傷を引き起こす。
英国の一般開業医は、通常,子どもが髄膜炎にかかっていると考えられた場合,さらなる検査や治療を行うために病院に送る前に,その子にペニシリンを投与する。
目的は,子どもが病院まで行くのを待たずに,なるべく速やかに治療を始めることにある。
この早期の治療が本当に有益かどうかを見るために,髄膜炎と診断されて病院に入れられた448人の子どもの記録を調査する観察研究が実施された。
簡易的分析からは,一般開業医からペニシリンを投与された子どもの方が治療中に死ぬことが少ないようだということが知れた。
より綿密にデータを見てみたところ、この傾向は逆転した。
多くの子どもが直接病院に入れられ,一般開業医の診察を受けていなかった。
つまり,こうした子どもたちは最初のペニシリンの注射を受けていなかったことになる。
そして,こうした子どもたちは,親が直接病院にかけこんだ,病状が最も深刻な子どもでもあった。
こうした子どもたちをデータから除外して,単に「一般開業医の診察を先に受けた子どもたちの中で,ペニシリンの投与は良い結果を生んだのか」とだけ問えば,答えはまさしくノーになる。
ペニシリンを投与された子どもの方がずっと死ぬことが多いようなのだ。
しかし,これは観察研究なので,ここから,ペニシリンが死の原因となったことについての確証を得ることはできない。
細菌が破壊されるときに出てくる毒素がショックを引き起こすと想定されるものの,このことは実験的に証明されていない。
あるいは,一般開業医が最も深刻な病状の子どもだけにペニシリンを投与したのかもしれない。
ランダム化試験なしに確証は得られないのだ。
残念なことに,ランダム化比較試験は難しいし,時には実行できないこともある。
例えば,髄膜炎の子どもにわざとペニシリンを与えないのは倫理的でないと見なされるかもしれない。
医学以外の例で言えば,ユナイテッド航空とコンチネンタル航空のフライトの遅れを比較すれば,ユナイテッド航空の方が平均して遅れが多いことが分かるだろう。
だが,空港単位で比較すると,コンチネンタル航空の方が遅れやすい。
ユナイテッド航空の方が気候が良くない都市からのフライトが多く,最も遅れが出る空港に平均が引き下げられていることが分かっている。
だが,フライトをランダムにユナイテッド航空とコンチネンタル航空に割り振ることはできない。
そして,交絡因子をすべて消し去ることがいつもできるとは限らない。
できることは,交絡因子を測定した上で,交絡因子のすべてが測定できていることを願うことだけだ。
統計的に有意でない変数は必ずしも効果がゼロでないことを思い出そう。
その効果を検出するのに必要な検定力がないのかもしれない。
可能ならば段階的回帰は避けよう。
段階的回帰は役に立つときもあるが,最終的なモデルが偏ったものになり,解釈するのが難しくなる。
LASSOのような他の選択手法の方が適切かもしれない。
あるいは変数選択の必要がまったくない可能性もある。
モデルがデータにどれほど当てはまっているかを調べるためには,別のデータセットを用いるか,交差検証のような手法を用いるようにしよう。
シンプソンのパラドックスで起きるような,誤解を招いたり逆転したりする結果の原因となりうる交絡変数に注意しよう。
可能ならば,交絡を消し去るためにランダムな割り当てを用いよう。
シンプソンのパラドックスは統計における重要な現象であり、交絡因子が介在することで、データ全体の傾向が個別のグループに分けた場合に異なる結果を示したり、完全に逆転したりするものである。これは統計的に錯覚を生じさせ、誤った解釈を導くことがあるため、理解と注意が求められる。シンプソンのパラドックスを理解するための代表的な事例として、1973年にカリフォルニア大学バークレー校で発生した大学院入試の男女比の事例が挙げられる。この年、1万2763人が大学院入学を出願し、男性出願者の44%が合格したのに対し、女性は35%しか合格しなかった。初見では、明らかな性差別が疑われたが、大学の調査の結果、実際には部局ごとの入学選考には男女差別の傾向は見られなかった。バークレーの101の大学院部局のうち、女性への入学許可が男性より少ないと統計的に有意に示された部局は4つのみであり、逆に男性が不利な状況にあると示された部局が6つ存在した。つまり、全体のデータでは女性が不利に見えたものの、部局ごとに細かく見ると偏向はなかった。このパラドックスが生じた理由は、男女の出願者が異なる部局に不均一に出願していたことにあった。例えば、競争が激しい英語学科では出願者の3分の2が女性であったが、機械工学などの技術系学科では女性出願者の割合は2%に過ぎなかった。このため、難関部局に女性が多く出願していたことが、全体の結果として女性が不利に見える要因になった。この現象は個々の部局が公平であっても、全体としての結果に影響を及ぼすことを示している。シンプソンのパラドックスは医学の研究においても頻繁に見られる。1986年に行われた腎結石を取り除く外科的手法に関する研究では、経皮的腎切石術という新しい低侵襲手法が伝統的な開腹手術よりも成功率が高いとされていた。伝統的な手術の成功率が78%であるのに対して、新しい手法は83%の成功率を示した。しかし、データを小さな腎結石と大きな腎結石の2つのグループに分けて再分析すると、各グループにおいては開腹手術の方が新しい手法よりも成功率が高かった。この逆転現象は、観察研究の限界を示しており、医師が患者の状態に応じて手法を選んでいたことに起因する。難しい症例には開腹手術が選ばれ、比較的簡単な症例には新しい手法が試されていた。これにより、全体的なデータでは新しい手法の方が優れているように見えても、個別に見ると異なる結論が導かれる。こうしたシンプソンのパラドックスの発生を防ぐためには、ランダムな割り当てによって交絡因子を排除し、観察研究による誤解を防ぐことが重要である。観察研究はシンプソンのパラドックスに特に影響を受けやすく、データの解釈において慎重を期すべきだ。例えば、細菌性髄膜炎は非常に進行の速い感染症であり、子どもが発症した場合には早急な治療が求められる。英国の一般開業医は、髄膜炎と疑われる症例にはペニシリンを投与してから病院に送ることが一般的であり、早期の治療が患者の生命を守るためとされている。ある観察研究で、448人の髄膜炎の子どもの記録を調べたところ、一般開業医によってペニシリンを投与された子どもの死亡率は病院で治療された子どもより低いという結果が得られた。しかし、データをより詳しく分析すると、この傾向は逆転した。実際には、病院に直接かけ込んだ子どもたちは一般開業医の診察を受けておらず、その多くは非常に重症であったため、初期治療が行われていなかった。ペニシリンの投与を受けた子どもは診断がついた段階で比較的病状が軽いか、少なくとも早期に発見されたものであったため、死亡率が低く見えたのである。この例からもわかるように、交絡因子が影響する観察研究では、結果の解釈には慎重さが求められる。ランダム化試験が行われていない限り、治療や介入が直接的な結果につながると断言することは難しい。ランダム化比較試験が倫理的または実務的に難しい場合には、可能な限り交絡因子を測定し、それらを統計モデルに組み込むことで影響を調整する必要がある。観察研究に基づく結果は、実験的証拠と比較して因果関係の証明において限界があることを認識しておくべきだ。シンプソンのパラドックスの典型的な事例は、日常生活にも見られる。たとえば、ユナイテッド航空とコンチネンタル航空のフライト遅延を比較すると、全体的にはユナイテッド航空の方が遅延が多いと結論付けられるかもしれないが、空港ごとに分けて分析するとコンチネンタル航空の方が遅延が多い場合がある。これは、ユナイテッド航空が気象条件の厳しい空港からのフライトが多いため、全体的な平均遅延が引き上げられていることが影響している。こうした交絡因子を無視すると、データに基づく結論が誤解を招く可能性がある。ランダムにフライトを割り振ることは実際には難しいが、交絡因子を特定し、統計的に制御することで誤解を減らすことは可能である。こうしたパラドックスを防ぐための手段としては、交絡因子を測定し、それらをモデル内で制御する方法があるが、これがすべての因子を正確に捉えているとは限らない。さらに、統計的に有意でない変数が効果を持っていないとは限らず、検定力が不十分で検出できていないだけの可能性もある。そのため、回帰分析を行う際は、段階的回帰は避けるべきである。段階的回帰は変数を削除していく過程で結果が偏りやすく、解釈が難しくなるからだ。その代わりに、LASSOのような変数選択手法を用いる方が、モデルの精度や解釈性が向上することがある。また、そもそも変数選択を行わない方が良いケースもある。モデルの適合度を確認するためには、別のデータセットや交差検証を用いることが推奨される。これにより、モデルの一般化能力が高まり、シンプソンのパラドックスのような結果の誤解を避ける助けになる。統計分析を行う際は、交絡因子の影響を受けたデータ解釈に細心の注意を払う必要がある。可能であればランダムな割り当てを利用して交絡を消し去り、観察研究に基づく誤った結論を回避することが推奨される。
関連記事