有意かどうかの判断|【統計学・統計解析講義応用】
有意かどうかの判断
フィクシトルとソルヴィクスを比較したければ,それぞれを偽薬と比較するのではなく,両者を直接比較すべきだ。
なぜそうしなくてはならないのだろうか。
両者の信頼区間を見てそれが重なっていないかを確かめるだけで済ますことはなぜできないのだろうか。
もし信頼区間が重なっていれば,2つの薬は同じ効果で,有意差があることは決してないと考えるのが,もっともなことではないだろうか。
実際,有意差が存在するかを判断するために,科学者は日常的に,図を用いて目分量で見ている。
図中に描かれた2つの点が,各々10人の患者からなる2つの異なったグループで,何らかの病気から回復するまでの推定時間を示していると考えてほしい。
エラーバーの幅は3つの異なったことを表しうる。
@測定の標準偏差の2倍。各々の観察点がどれだけ平均から離れているかを計算し,その差を二乗し,その結果を平均して平方根を取る。これが標準偏差(standard deviation)で,測定されたものが平均からどれだけ散らばっているかを示す。標準偏差のバーは,平均から標準偏差1個分下のところから標準偏差1個分上のところまで伸びている。
A推定量の95%信頼区間(95% confidence interval)
B推定量の標準誤差の2倍。これは誤差の幅を測るもう1つの手法だ。
もし,同一の実験を何度も実施して。それぞれの実験からフィクシトルの有効性の推定量を1つずつ得たとしたら,標準誤差(standard error)はこれらの推定量の標準偏差になる。
標準誤差のバーは,平均の標準誤差1個分下のところから標準誤差1個分上のところまで伸びている。
一般的な状況では,標準誤差のバーは95%信頼区間の半分の幅になる。
これら3つの概念の違いに注意することが重要だ。
標準偏差は個々のデータ点の散らばりを測るものだ。
フィクシトルを服用することで患者が良くなるまでどれだけの時間がかかるのかということを測っているのならば,標準偏差が大きいことは,この薬からもたらされる利益がほかの患者にもたらされる利益に比べてずっと大きい患者がいることを示す。
これに対して,信頼区間と標準誤差は,この病気にかかった人の1人1人にフィクシトルを投与した場合に得られる真の平均と,標本から得られた平均がどれだけ離れているかを推定するものだ。
だから,エラーバーが,標準偏差・信頼区間・標準誤差のどれを表しているのかを知ることは重要だ。
しかし,論文ではそれが書かれていないことがしばしばある。
2つの信頼区間に重なるところがあることから,多くの科学者はグループ間に統計的有意差はないという結論を出すだろう。
やはり、グループ1とグループ2に違いはないのかもしれない。
例えば,回復にかかる時間の平均は両方とも25日で,今回は単にグループ1が幸運だったために,違いが表れたのかもしれない。
しかし,このことは本当に差が統計的に有意でないことを意味するのだろうか。
p値はどうなるのだろうか。
ここでは,t検定を使ってp値を計算できる。
t検定は2つのグループのそれぞれの平均に統計的有意差があるかを調べるために使われる定番の統計的検定だ。
そして,フィクシトルとソルヴィクスの数値をつなぎ合わせると,p<0.05となる。
信頼区間が重なっていても,2つのグループの間には統計的有意差があるのだ。
残念なことに,多くの科学者は仮説検定のための計算を省き,グラフをちらっと見て,信頼区間が重なっているかを確認するだけで済ましてしまう。
統計的有意差があっても信頼区間が重なることはあるのだから,こうすることは実際には非常に保守的な検定をすることに等しくなる。
つまり, p<0.05を要求するより常に厳しくなるのだ。
そのようにすれば,有意差を取りこぼしてしまうだろう。
エラーバーは信頼区間を表すと仮定した。
だが,標準誤差や標準偏差を表すとしたらどうなるだろうか。
エラーバーが重なっているかを見るだけで,有意差を見つけることはできるだろうか。
お分かりかもしれないが,エラーバーを見るだけではうまくいかない。
標準誤差について言えば,信頼区間のときと逆の問題に直面することになる。
2つの観測結果の標準誤差が重ならなかったとしても,その差が統計的に有意でないことはありえる。
また,標準偏差は重なっていようがいまいが,有意性を判断するための十分な情報を提供しない。
心理学者・神経科学者・医学研究者に対する調査によれば,これらの学者の大多数が重なった信頼区間から有意性を判断し,標準誤差・標準偏差・信頼区間を混同していることが分かっている。
また,気候科学の論文に対する他の調査によれば,2つのグループをエラーバーで比較した論文の大部分がこの過ちを犯していることも分かっている。
ジョン・テーラーの『誤差分析入門』といった実験科学者のための入門教科書ですら,学生に対して目で見て判断するように教えていて,正式な仮説検定についてはまったく触れないでいる。
信頼区間を目で確認する手法がうまくいく場合が,1つだけある。
それは,信頼区間を他の信頼区間ではなく,固定された値と比較する場合だ。
もし数値がゼロであることがありえるかを調べたいのであれば,信頼区間がゼロに重なっているかを見て確かめてかまわない。
もちろん,目で見て比較できる信頼区間を作り出す正式な統計手続きは存在している。
しかも,この手続きは自動的に多重比較を修正してくれる。
残念なことに,こうした手続きは特定の状況でしかうまくいかない。
例えば,ガブリエル比較区間(Gabriel comparison interval)は目で見て簡単に解釈できるが,比較対象となっているグループの標準偏差がすべて同じでなくてはならない。
他の手続きを使えば,より一般的な状況に対応できるが,そうした手続きはおおよそのものでしかなく,しかも簡単に図示できるものではない(変数の組み合わせとしてありえるものすべてに対して別々に検定を実施して、多重比較のためのボンフェローニ法を使うという別の手段もあるが,これは冗長で保守的なもので,他の手法に比べて検定力を引き下げてしまう)。
信頼区間が重なっていることは,2つの値に有意差がないことを意味しない。
そのように信頼区間や標準誤差を確かめることは誤解を招くことになるだろう。
そうではなく,適切な仮説検定を用いるのが常に最良の手段となる。
眼球はしっかりと定義された統計的手続きではないのだ。
単に「こっちは有意で,あっちは有意でなかった」と言うのではなく,適切な統計的仮説検定を使って,グループを直接比較しよう。
有意差を目で判断してはならない。
統計的仮説検定を使おう。
複数のグループを比較するときには,多重比較の補正をしなくてはならないということを思い出そう。
関連記事