わずかな自由は大けがのもと|【統計学・統計解析講義応用】
わずかな自由は大けがのもと
シミュレーションによれば,異なった変数を調整したり,異なった事例のセットを排除したり,外れ値の扱いを変えたりするだけで,効果量に2倍の違いを生み出すことができる。
たとえ,実験室での試験結果が奇妙だった患者を再測定したり,明らかに異常な患者を取り除いたりといった合理的なやり方だったとしても,統計的に有意でない結果を有意なものにすることができる。
どうやら,やりたいように分析する自由があれば,結果を大幅にあやつることができるようなのだ。
ある研究者グループがこの現象を単純な実験で証明している。
この実験では,20人の学部生が,ビートルズの「ホエン・アイム・シックスティー・フォー」を聞くグループか,オペレーションシステムのWindows 7に付いている「カリンバ」(Kalimba)という曲を聞くグループのいずれかにランダムに割り当てられた。
その後,学生は自身の年齢と父親の年齢を聞かれた。
2つのグループを比較したところ,父親の年齢を統制すれば,「ホエン・アイム・シックスティー・フォー」を聞いた学生の方が平均して1年半若く,p<0.05となることが分かった。
割り当てはランダムになされたのだから,年齢の違いの原因としてありえるのは音楽しかない。
研究者たちは,「若いままでいるための音楽の手引き」という本を出版するのではなく,この結果を得るために使ったトリックについて説明した。
実は,データをどれだけ集めるかあらかじめ決めておかなかったのだ。
かわりに,学生を募集して,有意な結果がすでに得られているかを見るための統計的検定を定期的に実施した(このような停止規則が偽陽性率を大幅に増やす)。
また,被験者の父親の年齢で統制することについても,あらかじめ決められていたわけではなかった。
それどころか,次のようなことを聞いていたのだ。
自分の年齢がどれぐらいであると感じるか,夕食をどれだけ楽しんでいるか,100の平方根がいくつか,母親は何歳か,「コンピューターは複雑な機械だ」ということに賛成するか,早い時間だとお得になるサービスを利用するか,政治的指向はどうか,4人のカナダ大クォーターバックのうち誰が賞を取ったと考えているか,過去のことを「古き良き日」と呼ぶことがどれだけあるか,そして,性別は何かということを学生に問うたのだ。
この研究者たちは,データを見た後にはじめて,どれを結果変数として使うのか,そしてどの変数で統制するかを決めたのだ(結果が違うものだったとしたら,例えば,カナディアンフットボールに関する知識を統制すれば,「ホエン・アイム・シックスティー・フォー」を聞いた学生の方が100の平方根を計算できないと報告することになっただろう)。
当然,こうした自由は,研究者が多重比較をしたり,偽陽性率を引き上げたりすることを可能にしてしまうことになる。
この研究者たちは,公刊される論文の中で他の有意でなかった変数について報告しないで済み,老化を抑えるというビートルズの明らかな利益について自由に議論できただろう。
そうした場合,誤謬が読者の目に触れることはなかっただろう。
この研究者たちによって行われたさらなるシミュレーションによれば,例えば変数の別の組み合わせを統制したり,標本の大きさとして別のものを試したりするといった形で,うまくいくまで異なった統計分析を科学者に試させるだけで,与えられるデータセットに対する偽陽性率は50%以上跳ね上がることが示唆されている。
この事例はかなり異様なもののように感じられるし,ほとんどの科学者は有意な結果が出るまで意図的にデータをいじくりまわすようなことはしないと抗議するだろう。
ほとんどの科学者は,仮説を立てて,データを集め,データを少し探索して,仮説を検証するための合理的な統計分析をする。
「すばらしい結果が得られるまで100個の分析をすることだってできたかもしれないが,私たちはやっていない」と言うことだろう。
「データに即して適切と思われる分析を1つ選んで,それをやり通しているのだ」とも。
だが,分析戦略を選ぶときは,いつもデータを元にしている。
どの変数を含めるか,どの外れ値を取り除くか,どの統計的検定を使うか,どの結果を検討するかは,データを見て決めている。
こうしたことをしているのは,最も統計的に有意な結果を見つけるという明確な目標のためではなく,どのようなデータセットにおいても発生する特異な点を説明するような分析をもくろんでいるからなのだ。
異なったデータを集めたとしたら,例えば,急性の下痢の患者でなくて慢性の便秘の患者のデータを集めたとしたら,別の統計分析を選んでいただろう。
「意味をなす」結果を作り出すために分析を偏らせているのだ。
さらに,事前に指定された1個の科学上の仮説は,必ずしも1個の統計的仮説に対応するわけではない。
多種多様な統計的結果がみな仮説を支持するものだと解釈できる可能性もある。
ある薬が別の薬よりも副作用が少ないと考えることがあるかもしれないが,その場合,さまざまな副作用のうち,どれが統計的に有意に減ったとしてもそれを証拠として受け入れるだろう。
女性は排卵期に赤かピンクの服を着る傾向にあると考えることがあるかもしれないが,その場合,赤いシャツ,ピンクのシャツ,両者の組み合わせのどれかが統計的に有意な効果ならばそれを受け入れるだろう(あるいは,シャツ,ズボン,帽子,靴下,その他の衣類についても効果を受け入れるかもしれない)。
もし排卵期が独身の女性をよりリベラルにするという仮説を立てたのならば,投票の選択,宗教的な考え,政治的価値のどれであっても,変化があればそれを証拠として受け入れるだろう。
興味深い結果を生むような選択は,私たちの興味を誘いどのような結果にもありえそうな筋書きを作りあげるという人間の性向を惹きつけることになるだろう。
こうした統計上の自由がもたらす結末として最も憂慮すべきなのが,研究者が自分たちに最も都合の良い統計分析を意図せずに選んでしまうかもしれないということだ。
そうなれば,標準誤差や信頼区間など,不確実性の推定値としてもたらされたものが偏ってしまうだろう。
また,データが統計に関する意図を誘導してしまっているため,偽陽性率は上がってしまうだろう。
関連記事