信頼区間だけで判断しない統計比較法【ChatGPT統計解析】
フィクシトルとソルヴィクスを比較する際には、両者を直接比較し、信頼区間が重なっているかどうかだけで有意差を判断すべきではない。エラーバーが標準偏差・信頼区間・標準誤差のいずれを表しているかに注意することが重要で、信頼区間が重なっていても統計的に有意な差が存在する場合がある。科学者は信頼区間を見て目視で有意性を判断しがちだが、これは非常に保守的な検定に等しく、誤解を招く。適切な仮説検定を行い、p値が有意か確認することで、グループ間の違いを正確に把握すべきである。標準偏差や標準誤差のエラーバーは有意性の判断に十分な情報を提供しないことがあるため、誤りを避けるためにも複数のグループを比較する際には多重比較の補正を行い、目視に頼らず統計的手法を用いることが求められる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
有意かどうかの判断
フィクシトルとソルヴィクスを比較したければ,それぞれを偽薬と比較するのではなく,両者を直接比較すべきだ。
なぜそうしなくてはならないのだろうか。
両者の信頼区間を見てそれが重なっていないかを確かめるだけで済ますことはなぜできないのだろうか。
もし信頼区間が重なっていれば,2つの薬は同じ効果で,有意差があることは決してないと考えるのが,もっともなことではないだろうか。
実際,有意差が存在するかを判断するために,科学者は日常的に,図を用いて目分量で見ている。
図中に描かれた2つの点が,各々10人の患者からなる2つの異なったグループで,何らかの病気から回復するまでの推定時間を示していると考えてほしい。
エラーバーの幅は3つの異なったことを表しうる。
@測定の標準偏差の2倍。各々の観察点がどれだけ平均から離れているかを計算し,その差を二乗し,その結果を平均して平方根を取る。これが標準偏差(standard deviation)で,測定されたものが平均からどれだけ散らばっているかを示す。標準偏差のバーは,平均から標準偏差1個分下のところから標準偏差1個分上のところまで伸びている。
A推定量の95%信頼区間(95% confidence interval)
B推定量の標準誤差の2倍。これは誤差の幅を測るもう1つの手法だ。
もし,同一の実験を何度も実施して。それぞれの実験からフィクシトルの有効性の推定量を1つずつ得たとしたら,標準誤差(standard error)はこれらの推定量の標準偏差になる。
標準誤差のバーは,平均の標準誤差1個分下のところから標準誤差1個分上のところまで伸びている。
一般的な状況では,標準誤差のバーは95%信頼区間の半分の幅になる。
これら3つの概念の違いに注意することが重要だ。
標準偏差は個々のデータ点の散らばりを測るものだ。
フィクシトルを服用することで患者が良くなるまでどれだけの時間がかかるのかということを測っているのならば,標準偏差が大きいことは,この薬からもたらされる利益がほかの患者にもたらされる利益に比べてずっと大きい患者がいることを示す。
これに対して,信頼区間と標準誤差は,この病気にかかった人の1人1人にフィクシトルを投与した場合に得られる真の平均と,標本から得られた平均がどれだけ離れているかを推定するものだ。
だから,エラーバーが,標準偏差・信頼区間・標準誤差のどれを表しているのかを知ることは重要だ。
しかし,論文ではそれが書かれていないことがしばしばある。
2つの信頼区間に重なるところがあることから,多くの科学者はグループ間に統計的有意差はないという結論を出すだろう。
やはり、グループ1とグループ2に違いはないのかもしれない。
例えば,回復にかかる時間の平均は両方とも25日で,今回は単にグループ1が幸運だったために,違いが表れたのかもしれない。
しかし,このことは本当に差が統計的に有意でないことを意味するのだろうか。
p値はどうなるのだろうか。
ここでは,t検定を使ってp値を計算できる。
t検定は2つのグループのそれぞれの平均に統計的有意差があるかを調べるために使われる定番の統計的検定だ。
そして,フィクシトルとソルヴィクスの数値をつなぎ合わせると,p<0.05となる。
信頼区間が重なっていても,2つのグループの間には統計的有意差があるのだ。
残念なことに,多くの科学者は仮説検定のための計算を省き,グラフをちらっと見て,信頼区間が重なっているかを確認するだけで済ましてしまう。
統計的有意差があっても信頼区間が重なることはあるのだから,こうすることは実際には非常に保守的な検定をすることに等しくなる。
つまり, p<0.05を要求するより常に厳しくなるのだ。
そのようにすれば,有意差を取りこぼしてしまうだろう。
エラーバーは信頼区間を表すと仮定した。
だが,標準誤差や標準偏差を表すとしたらどうなるだろうか。
エラーバーが重なっているかを見るだけで,有意差を見つけることはできるだろうか。
お分かりかもしれないが,エラーバーを見るだけではうまくいかない。
標準誤差について言えば,信頼区間のときと逆の問題に直面することになる。
2つの観測結果の標準誤差が重ならなかったとしても,その差が統計的に有意でないことはありえる。
また,標準偏差は重なっていようがいまいが,有意性を判断するための十分な情報を提供しない。
心理学者・神経科学者・医学研究者に対する調査によれば,これらの学者の大多数が重なった信頼区間から有意性を判断し,標準誤差・標準偏差・信頼区間を混同していることが分かっている。
また,気候科学の論文に対する他の調査によれば,2つのグループをエラーバーで比較した論文の大部分がこの過ちを犯していることも分かっている。
ジョン・テーラーの『誤差分析入門』といった実験科学者のための入門教科書ですら,学生に対して目で見て判断するように教えていて,正式な仮説検定についてはまったく触れないでいる。
信頼区間を目で確認する手法がうまくいく場合が,1つだけある。
それは,信頼区間を他の信頼区間ではなく,固定された値と比較する場合だ。
もし数値がゼロであることがありえるかを調べたいのであれば,信頼区間がゼロに重なっているかを見て確かめてかまわない。
もちろん,目で見て比較できる信頼区間を作り出す正式な統計手続きは存在している。
しかも,この手続きは自動的に多重比較を修正してくれる。
残念なことに,こうした手続きは特定の状況でしかうまくいかない。
例えば,ガブリエル比較区間(Gabriel comparison interval)は目で見て簡単に解釈できるが,比較対象となっているグループの標準偏差がすべて同じでなくてはならない。
他の手続きを使えば,より一般的な状況に対応できるが,そうした手続きはおおよそのものでしかなく,しかも簡単に図示できるものではない(変数の組み合わせとしてありえるものすべてに対して別々に検定を実施して、多重比較のためのボンフェローニ法を使うという別の手段もあるが,これは冗長で保守的なもので,他の手法に比べて検定力を引き下げてしまう)。
信頼区間が重なっていることは,2つの値に有意差がないことを意味しない。
そのように信頼区間や標準誤差を確かめることは誤解を招くことになるだろう。
そうではなく,適切な仮説検定を用いるのが常に最良の手段となる。
眼球はしっかりと定義された統計的手続きではないのだ。
単に「こっちは有意で,あっちは有意でなかった」と言うのではなく,適切な統計的仮説検定を使って,グループを直接比較しよう。
有意差を目で判断してはならない。
統計的仮説検定を使おう。
複数のグループを比較するときには,多重比較の補正をしなくてはならないということを思い出そう。
フィクシトルとソルヴィクスを比較する際、信頼性の高い結論を導くためには、両者を直接比較することが不可欠であり、それぞれを偽薬と比較するだけでは十分ではない。このように直接比較を行う理由は、単に信頼区間が重なっているかどうかを確認するだけでは、統計的有意差の有無を正確に判断できないためである。信頼区間が重なっている場合、一般的な理解では「2つの薬は同じ効果を持ち、有意差は存在しない」と結論づけられがちだが、これは誤解を招く可能性がある。実際、多くの科学者は図表を用いてエラーバーの重なりを目視し、統計的有意性を評価することがある。しかし、このような方法はしばしば誤解を生じさせ、結果として不正確な結論に至ることがある。図中のエラーバーが示すものは3つの異なる内容であり、それぞれ異なる意味を持つ。第一に、エラーバーは測定の標準偏差の2倍を表している場合がある。標準偏差は、各観察点が平均からどれだけ離れているかを示し、観測値のばらつきを測るものである。この計算方法は、各観察点と平均の差を二乗し、その結果の平均値の平方根を取ることにより行われ、これにより測定されたデータの散らばり具合が明らかになる。標準偏差のエラーバーは、平均値から標準偏差1個分下から標準偏差1個分上までを表している。これに対し、エラーバーが示すものとして考えられる2つ目は、95%信頼区間である。95%信頼区間は、ある推定量がどの範囲に収まるかを示し、その推定値が誤差範囲内にあることを95%の確率で保証する。第三に、エラーバーは標準誤差の2倍を示していることもある。標準誤差は、推定量のばらつきを測るための指標で、仮に同じ実験を何度も繰り返した場合に各回の推定量の標準偏差として表される。標準誤差のエラーバーは、平均の標準誤差1個分下から標準誤差1個分上の範囲を示す。標準誤差の幅は一般に95%信頼区間の半分程度の幅であるため、エラーバーが標準誤差を表すのか、信頼区間を表すのかによって解釈が変わってくるため、その違いを理解することが重要である。標準偏差は観測データそのものの散らばりを示すものであり、仮にフィクシトルの服用により患者の回復時間を測定した場合、標準偏差が大きいということは、この薬から得られる効果が患者ごとに非常に異なることを示している。例えば、一部の患者には大きな利益をもたらす一方で、他の患者にはほとんど影響を与えない場合がある。これに対して、信頼区間や標準誤差は、標本平均と真の母集団平均がどの程度離れているかを示し、より推定値の信頼性に関する情報を提供するものである。従って、エラーバーが何を表しているのかを知ることは非常に重要だが、論文ではしばしば明確に示されていない場合が多い。科学者たちは、しばしば信頼区間が重なっているかどうかだけを見て、2つのグループ間に有意差があるかどうかを結論づける傾向にあるが、これは非常に保守的な検定方法となる。信頼区間が重なっている場合でも、統計的有意差が存在する可能性があるため、目視による判断は正確な有意差の評価には不適切である。たとえば、回復時間の平均が両グループで25日だったとしても、たまたま一方のグループが運良く良い結果を出している場合もあり、単なる目視ではこのような違いを見逃してしまうことがある。このため、p値の計算を行うことで、より正確に有意差を判断することが推奨される。統計的検定の一つであるt検定は、2つのグループ間の平均値に有意差があるかを判断する際に広く用いられており、フィクシトルとソルヴィクスの比較においてもt検定を適用することで、有意性の有無を明確にすることができる。もしp値が0.05未満であれば、統計的に有意であると判断される。信頼区間が重なっている場合でも、p<0.05となることはありうるため、グラフを見るだけで判断するのは誤りを招くことになる。仮説検定をせずにエラーバーの重なりを目視するだけで有意性を判断する科学者も多いが、この方法では有意な結果を見逃すリスクがあるため、実際には非常に保守的であり、検定力を低下させる可能性がある。エラーバーが信頼区間を示している場合であっても、標準誤差や標準偏差を示している場合であっても、目視による有意差の判断は誤解を招く可能性がある。標準誤差について言えば、信頼区間の場合とは逆に、標準誤差のバーが重ならない場合でも、その差が統計的に有意ではないことがあり得る。また、標準偏差は、エラーバーが重なっているかどうかにかかわらず、統計的有意性の判断に十分な情報を提供しない。心理学者、神経科学者、医学研究者への調査によれば、多くの科学者が信頼区間が重なっていることをもって統計的有意性の判断を行っており、標準偏差や標準誤差、信頼区間の区別が不明瞭であることが分かっている。また、気候科学の論文においても、エラーバーを比較して統計的有意性を判断する際に同様の誤りが見られることがある。実験科学者向けの教科書でも、目視による判断が推奨されていることがあり、仮説検定の重要性が十分に伝えられていないことがある。例えば、ジョン・テーラーの『誤差分析入門』などでは、エラーバーを目視で比較することを指導する一方で、仮説検定に触れることは少ない。信頼区間を目視で比較する手法がうまくいくのは、信頼区間を他の信頼区間ではなく、特定の固定値と比較する場合に限られる。例えば、ある数値がゼロであるかどうかを調べたい場合、信頼区間がゼロに重なっているかどうかを確認することは正当である。しかし、複数のグループを比較する場合は、多重比較の影響を考慮し、適切な仮説検定を行う必要がある。目視で確認できる信頼区間を使用するための正式な統計手続きも存在し、多重比較の修正を自動的に行うことができるが、これらは特定の状況下でのみ有効である。例えば、ガブリエル比較区間は、グループの標準偏差が同一である場合に限り、目視で簡単に解釈することができる。
関連記事