事実の統計的誇張|【統計学・統計解析コラム】
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
事実の統計的誇張
フィクシトルが実際は偽薬よりも症状を20%減らすとしよう。
そして,そのことを調べるために実施している試験は,信頼をもってこの差を検出するために十分な検定力がないものとしよう。
小規模の試験では,幅広い結果が出る傾向があることが知られている。
普通より短いかぜをひいている運の良い患者を10人得ることは簡単だ。
しかし,全員が普通より短いかぜをひいているような1万人を得ることは,ずっと難しい。
この試験を何回も実施することを想像してみよう。
時には,運の悪い患者をつかまえ,薬がもたらす統計的に有意な改善に気づかない。
時には,平均的な患者をつかまえ,実験群で症状を20%減らしたものの,統計的に有意な向上と言えるほどの十分な数のデータがなかったために,無視してしまう。
時には,運の良い患者をつかまえ,症状を20%よりずっと大きく減らし,試験をやめて,「見てくれ! 効果があるぞ!」と述べる。
フィクシトルに効果があるという結論を出したことは正しい。
しかし,研究の検定力が足りないために,効果量が誇張されてしまっている。
こうした現象は,事実の誇張(truth inflation),あるいはM型の過誤(Mはmagnitude〔重大性〕の頭文字)や勝者の呪い(winners curse)として知られている。
これは,多くの研究者が似たような実験を行い,最も刺激的な結果を発表しようと競争している領域で起きる。
例えば,薬理学的試験,疫学研究,遺伝子関連解析(「遺伝子Aが状況Bを引き起こす」),心理学研究のような領域だ。
さらに,医学分野の文献で最も引用されている論文のいくつかにおいても,この問題が発生している。
遺伝学のように展開の速い分野において,最も初期に公刊された結果はしばしば最も極端なものになる。
なぜかと言えば,学術誌側が,新しくて刺激的な結果を公刊したがっているためだ。
後から行われる研究での効果はずっと小さい傾向にある。
『ネイチャー』や『サイエンス』のような最高ランクの学術誌が革新的な結果を有する研究の公刊を好んでいることについても注目してみよう。
革新的な結果を有する研究とは,先行研究がほとんどない新規性のある分野で大きな効果量があるような研究のことを指す。
これは,慢性病のような事実の誇張を生み出す完璧な組み合わせだ。
学術誌のインパクトファクター(学術誌の卓越性と重要性を示す大まかな指標)が効果量を過剰に見積もっている研究の割合と相関していることを示唆する証拠がある。
あまり刺激的でない結果を生み出すような研究の方が,事実に近いのだが,一流の学術誌の編集者にとってはつまらなく感じられるのだ。
ある研究が,標本の大きさが相対的に小さいのに,大きな効果を検出したと主張していたとしよう。
このとき,最初の反応が「なんかどえらいことを発見したんだなあ!」となってはならない。
むしろ,「うわっ‥‥‥この研究の検定力,低すぎ……」となるべきだ。
1つ例を挙げてみよう。
サトシ・カナザワは. 2005年から性比をテーマとするひと続きの論文を発表し,ついには「美しい両親は娘を持つことが多い」というところまで至った。
引き続いて,カナザワは自著で,このことと,他に自身が発見した政治的に正しくない事実を論じた。
こうした研究は,特に,報告された効果量が大きかったために,当時マスメディアではとても人気があった。
カナザワは,最も美しい両親の子どもで女であるのは52%であるのに対し,最も魅力的でない両親の子どもで娘であるのは44%しかいないと主張していた。
生物学者にとっては,もしかしたら1%とか2%といった程度の小さな効果でも,もっともらしいものなのだろう。
トリヴァース=ウィラード仮説によれば,両親が男児よりも女児に有益な特性を持っている場合,男児よりも女児を多く持つようになることが示唆される(逆に男児に有益な特性ならば,男児を多く持つようになる)。
もし女児は男児よりも美しさから得る利益が大きいと想定するのならば,この仮説から,美しい両親は平均すればわずかに娘を多く持つことが予想される。
しかし,カナザワが主張した効果量は非常に大きなものだった。
そして,後にカナザワが統計分析でいくつかの誤りを犯していたことが分かった。
修正がなされた後の回帰分析によれば,データ上,魅力的な両親は確かに4.7%娘を持ちやすかったのだが,その信頼区間は13.3%娘を持ちやすいというところから. 3.9%持ちにくいところまで,大きく広がっていた。
カナザワの研究は3000近くの親のデータを用いていたが,結果は統計的に有意ではなかった。
小さな違いを確実に検出するためには,膨大な量のデータが必要になる。
より現実昧がある効果量として,例えば0.3%を仮定してみよう。3000の親のデータがあっても,観察された0.3%の違いは偶然と区別するには小さすぎる。
この場合,単純に5%の確率で,統計的に有意な結果を運良く手に入れることがある。
ここで有意となった結果は本来の効果を少なくとも20倍誇張する結果になる。
そして,これらのうち40%が,女児でなく男児の方が生まれやすいという大胆な過大評価となる。
だから,たとえカナザワが完璧な統計分析をしたとしても,「技術者は多くの息子を持ち,看護師は多くの娘を持つ」といった論文を出せる幸運に時々出くわすことがあっただろう。
そして,実在の非常に小さな効果を大胆に過大評価した形の結果が得られただろう。
カナザワが実施した研究は,あらかじめ予期される量の効果を検出することができないほど,小規模なものだった。
事前に検定力分析をしていれば,このことが分かったことだろう。
関連記事