統計による事実の誇張|【統計学・統計解析講義応用】
統計による事実の誇張
以下に紹介するfMRIでの試験もその一例だ。
この試験は,刺激や行動を,脳の特定領野の活動と関連づけることを目的としている。
MRIの機器は,脳のさまざまな部位の血流の変化を検出し,どの領野が刺激処理のために活発に動いているかを示す。
現代のMRIの機器はとても解像度の高い像を出すので,あらかじめ脳の中で着目する領域を選ぶことが重要になる。
あらかじめ選ばなければ,脳内の何万もの場所を比較しなくてはならないことになってしまう。
そして,多重比較の補正を大量にしなくてはならない上,研究の検定力を大幅に引き下げてしまう。
着目する領域は,生物学上の根拠や先に得られた結果をもとに選ばれる可能性もあるが,選ぶべき領域がないということもしばしばある。
例えば,被験者にセイウチの画像とペンギンの画像という2つの異なった刺激を見せるとしよう。
これらの刺激を処理する脳の部位が分からないので,セイウチによって引き起こされる活動と被験者が何も刺激を見ていないときの活動との間に違いがあるかを調べる単純な検定をする。
ここで統計的に有意な結果が得られた領域に着目し,こうした領域に対して完全な分析をして,2つの刺激の間に活動パターンの違いがあるかを検定する。
セイウチとペンギンが脳のある領域で同等の活性化を引き起こすとしたら,上記のふるい分けで,その領域をさらなる分析のために選択することになるだろう。
しかし,ふるい分けのための検定は,偶然変動と雑音によってセイウチに対するかなり明確な活性化が引き起こされた領域も抽出してしまう。
だから,完全な分析のときには,セイウチに対する活性化の方がペンギンに対するものよりも,平均して高めになる。
そして,検定で想定している偽陽性率よりも何倍も多く,こうした存在しない差を検出することになるだろう。
幸運な領域でしか検定していないから,そうなるのだ。
セイウチには本当の効果があるので,誤った相関を作り出したというわけではない。
しかし,その効果をふくらませてしまったのだ。
もちろん,これは実際にはありえないようなわざわざ作られた事例だ。
もし,着目する領域を両方の刺激を使って選んだとしたらどうなるだろうか。
その場合,セイウチに対する活性化がペンギンに対するものより高めになると誤って信じることはないだろう。
そのかわり,両方の効果が誤って誇張されてしまう。
皮肉なことに,着目する領域を選択するために,厳格な多重比較の補正を使用するほど,この問題はひどくなってしまう。
これは繰り返しになるが,事実の誇張という現象だ。
平均かそれ以下の反応を見せた領域は,十分に有意でないために,最終分析には含まれなくなる。
ランダム雑音が強かった領域だけが,さらなる分析に残ってしまうのだ。
この問題を緩和する方法がいくつかある。
1つの方法としては,データセットを半々に分けて,着目する領域を片方を使って選び,もう片方でさらに詳細な分析を実施するというものだ。
だが,この方法は検定力を低下させるので,埋め合わせとしてデータをより多く集めなくてはならない。
他の方法としては,着目する領域をセイウチやペンギンの刺激に対する反応以外の基準,例えば事前に知られている解剖学的知識を使って選ぶことが挙げられる。
こうした決まりごとは神経イメージングの文献ではしばしば破られていて,40%程度の文献においてそうなっている可能性がある。
そして,このことによって,相関が誇張されたり偽陽性が生み出されたりしてしまっている。
こうした誤りを犯している研究は,刺激と神経活動の間に,ランダム雑音と脳イメージングに内在する誤差を踏まえてありえそうな相関より強い相関を検出する傾向がある。
同様の問題は,遺伝学者が何千もの遺伝子のデータを集めてその一部を分析のために選んだり,疫学者が人口動態に関するデータを拾いあげて病気と関連するリスク因子が何かを探したりするときにも起きる。
関連記事