シンプソンのパラドックスの事例|【統計学・統計解析講義応用】
シンプソンのパラドックスの事例
統計における興味深いパラドックス的帰結について聞かれたら,統計学者は多くの場合,シンプソンのパラドックスを挙げるだろう。
シンプソンのパラドックス(Simpsons paradox)は,交絡因子によって発生するデータ内の明確な傾向が,データを自然なグループに分けることで消え去ったり,ひっくり返ったりすることがあるようなときに生じるものだ。
シンプソンのパラドックスについては多数の事例があるので,まずは最も有名な事例から始めたいと思う。
1973年,カリフォルニア大学バークレー校では,1万2763人分の大学院入学の出願があった。
その年の入学選考において,男性出願者の44%が入学を許可されたが,女性出願者は35%しか入学が許されなかった。
大学事務局は,性差別と告訴されるのを恐れ,何人かの教員にデータを細かく見るように依頼した。
大学院の入学選考は,学部の入学選考とは異なり,部局ごとに独立に行われる。
最初の調査からはパラドックス的な結論が得られた。
バークレーの101個の大学院の部局のうち,女性への入学許可を出さない傾向があるという統計的に有意な偏向があった部局は4つしかなかった。
逆に,6つの部局で男性への入学許可が出にくいという偏向が見られた。
これは,他の4つの部局で起きた女性の不足を打ち消すには十分すぎるものだった。
バークレーにおいて,個々の部局では一般的に女性に対する偏向がないにもかかわらず,全体としては偏向があるように見えたのはどうしてだろうか。
実は,男女がすべての部局で同じ比率で出願しているわけでなかったのだ。
例えば,英語学科の出願者の3分の2が女性だったのに対し,機械工学の出願者では女性が2%しかいなかった。
さらに,他の部局に比べて,選抜がより厳しい大学院の部局があった。
認識されることとなった偏向はこれら2つの要因で説明される。
女性は,財政的支援が少なく,資格のある出願者が多い部局に出願する傾向があった。
逆に,男性は,出願者が少なく研究助成金が余っている部局に出願していた。
バークレーの個々の部局は一般的に公平で,バークレーに偏向はなかったのだ。
だが,教育の過程をさらにさかのぼれば,女性たちは大学院生になれる機会が少ない研究分野に追いやられていたことになる。
シンプソンのパラドックスは,腎結石を取り除く外科的手法を扱った1986年の研究でも発生している。
何百もの診療記録を分析したところ,経皮的腎切石術という,腎結石を取り除くための侵襲性が最小限の新しい手法は,伝統的な開腹手術に比べて成功率が高かった。
伝統的な方法の成功率が78%であるのに対して,新しい方法の成功率は83%だった。
しかし,もっと細かく見てみたところ,傾向は逆転した。
データを小さな腎結石と大きな腎結石という2つのグループに分けると,どちらのグループでも経皮的腎切石術の方が成績が悪かった。
どうしてこうしたことがありえたのだろうか。
問題は,この研究でランダムな割り当てがなされなかったことだった。
この研究は診療記録の単なる再分析に過ぎなかった。
そして,医師の患者の扱い方に系統的な偏りがあったことが後から分かった。
大きくて取り除きにくい腎結石の患者には開腹手術が行われたのに対し,小さくて取り除きやすい結石の患者には腎切石術が行われた。
おそらく,小さな結石の患者には新しくて慣れない手法を用いる方が医者にとっては気楽で,難しい症例だと逆に開腹手術になったのだろう。
新しい手術は必ずしも優れているものではなかったのだが,治療が容易な患者に試されていたのだ。
外科医の自由裁量によらず,ランダムな割り当てによって手術方法が選ばれたとしたら,そのような偏りはなかっただろう。
一般的に言えば,ランダムな割り当てを行うことによって,交絡変数を打ち消し,シンプソンのパラドックスのせいで逆の結果が出ることを防ぐことができる。
これに対して,純粋な観察研究は特にこのシンプソンのパラドックスの影響を受けやすくなっている。
この問題は,次の例でも示すように医学ではありふれたものだ。
細菌性髄膜炎は脳と脊髄を取り囲む組織での感染症で,急速に進行し,即座に治療をしないと特に子どもに対しては永続的な損傷を引き起こす。
英国の一般開業医は、通常,子どもが髄膜炎にかかっていると考えられた場合,さらなる検査や治療を行うために病院に送る前に,その子にペニシリンを投与する。
目的は,子どもが病院まで行くのを待たずに,なるべく速やかに治療を始めることにある。
この早期の治療が本当に有益かどうかを見るために,髄膜炎と診断されて病院に入れられた448人の子どもの記録を調査する観察研究が実施された。
簡易的分析からは,一般開業医からペニシリンを投与された子どもの方が治療中に死ぬことが少ないようだということが知れた。
より綿密にデータを見てみたところ、この傾向は逆転した。
多くの子どもが直接病院に入れられ,一般開業医の診察を受けていなかった。
つまり,こうした子どもたちは最初のペニシリンの注射を受けていなかったことになる。
そして,こうした子どもたちは,親が直接病院にかけこんだ,病状が最も深刻な子どもでもあった。
こうした子どもたちをデータから除外して,単に「一般開業医の診察を先に受けた子どもたちの中で,ペニシリンの投与は良い結果を生んだのか」とだけ問えば,答えはまさしくノーになる。
ペニシリンを投与された子どもの方がずっと死ぬことが多いようなのだ。
しかし,これは観察研究なので,ここから,ペニシリンが死の原因となったことについての確証を得ることはできない。
細菌が破壊されるときに出てくる毒素がショックを引き起こすと想定されるものの,このことは実験的に証明されていない。
あるいは,一般開業医が最も深刻な病状の子どもだけにペニシリンを投与したのかもしれない。
ランダム化試験なしに確証は得られないのだ。
残念なことに,ランダム化比較試験は難しいし,時には実行できないこともある。
例えば,髄膜炎の子どもにわざとペニシリンを与えないのは倫理的でないと見なされるかもしれない。
医学以外の例で言えば,ユナイテッド航空とコンチネンタル航空のフライトの遅れを比較すれば,ユナイテッド航空の方が平均して遅れが多いことが分かるだろう。
だが,空港単位で比較すると,コンチネンタル航空の方が遅れやすい。
ユナイテッド航空の方が気候が良くない都市からのフライトが多く,最も遅れが出る空港に平均が引き下げられていることが分かっている。
だが,フライトをランダムにユナイテッド航空とコンチネンタル航空に割り振ることはできない。
そして,交絡因子をすべて消し去ることがいつもできるとは限らない。
できることは,交絡因子を測定した上で,交絡因子のすべてが測定できていることを願うことだけだ。
統計的に有意でない変数は必ずしも効果がゼロでないことを思い出そう。
その効果を検出するのに必要な検定力がないのかもしれない。
可能ならば段階的回帰は避けよう。
段階的回帰は役に立つときもあるが,最終的なモデルが偏ったものになり,解釈するのが難しくなる。
LASSOのような他の選択手法の方が適切かもしれない。
あるいは変数選択の必要がまったくない可能性もある。
モデルがデータにどれほど当てはまっているかを調べるためには,別のデータセットを用いるか,交差検証のような手法を用いるようにしよう。
シンプソンのパラドックスで起きるような,誤解を招いたり逆転したりする結果の原因となりうる交絡変数に注意しよう。
可能ならば,交絡を消し去るためにランダムな割り当てを用いよう。
関連記事