データの二度づけ|【統計学・統計解析講義応用】
データの二度づけ
有意性検定を使いすぎることで発生する問題として,事実の誇張がある。
研究者は,有意性を追い求めて,最も運が良く,最も誇張された結果しか選ばない。
そうした結果しか有意性の関門を通過することができないからだ。
しかし,これだけが研究を誇張された結果に偏らせる方法ではない。
統計分析はしばしば探索的に行われる。
探索的なデータ分析においては,あらかじめ仮説を選ぶことはない。
データを集めて,どんなおもしろい詳細が飛び出てくるかを知るためにデータを突っつき回すのだ。
理想的には,この探索を通じて,新しい仮説を生み出した上で,新たな実験をすることになる。
この過程では,多くの図を描き,統計分析をいくつか試し,有望な手がかりを追究することになる。
しかし,目的のないデータ探索では,偽陽性や事実の誇張を生み出す機会が多くなる。
探索で興味深い相関を見つけたとしたら,一般的な手続きとしては,新しいデータセットを集めて,仮説をもう一度検定することになる。
独立したデータセットを検定することで,偽陽性を取り除き,正当な発見を信用されるのにすることができる(もちろん,発見が再現できるように,データセットに十分な検定力を確保する必要はある)。
そのため,確認がなされるまでは,探索的に行われた発見は仮のものだと考えるべきだ。
もし,新しいデータセットを集めなかったり,新しいデータセットが以前のデータセットと強く関連していたりすれば,事実の誇張が帰ってきて,尻にかみつくだろう。
関連記事