信頼を区間に対していだけ|【統計学・統計解析コラム】
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
信頼を区間に対していだけ
「統計的に有意である」という言い回しが今や一般人の語彙に収められそうなぐらい,有意性検定は非常に注目を浴びるようになっている。
研究結果は,特に生物科学や社会科学では,p値で示されることが普通だ。
しかし,p値は証拠の重みを評価するための唯一の方法ではない。
信頼区間(confidence interval)もp値と同じ問題に答えることができる。
さらに,信頼区間の方がより多くの情報を示し,より分かりやすく結果を解釈できるという利点がある。
信頼区間とは点推定に推定の不確かさを加えたものだ。
例えば,新しい実験的な薬が,かぜの症状が続く期間を平均36時間減らすと述べた上で,その95%信頼区間は24時間から48時間の間だということを示せるだろう。
信頼区間は減らす期間の平均に対してのものだ。
個々の患者で,減らされる期間が大幅に違ったものになることはありえる。
もし100回同じ実験をしたら,信頼区間のうちおよそ95個が,測定しようとしているものの真の値を含む。
信頼区間は結論の不確かさを定量化する。
そして,効果量について何も言わないp値に比べてずっと多くの情報をもたらす。
効果が有意にゼロと異なっているかを調べたければ, 95%信頼区間を求めて,それがゼロを含んでいるかを確かめることもできる。
この方法では。推定がどれほど正確か分かるというおまけも得られる。
もし信頼区間が広すぎるのであれば,もっと多くのデータを集める必要があるかもしれない。
例えば,臨床試験を行う場合,薬が症状を15%から25%の範囲で減らすことを示す信頼区間を算出することがあるかもしれない。
区間がゼロを含んでいないため,この効果は統計的に有意だ。
さらに,問題となっている病気に関する臨床的な知識を活用して,この差の重要性を評価することができる。
p値を使っていたときのように,このステップは重要だ。
結果を文脈において評価することなしに,大きな発見のように言いふらすべきではない。
もし症状がすでにほとんど害のないものになっていたら, 15%から25%の改善はあまり重要なものにならないだろう。
しかし一方で,人体自然発火のような症状ならば,どんな改善に対しても興奮するだろう。
結果をp値の形で書くかわりに信頼区間の形で書けるのならば,そう書くべきだ。
信頼区間を使うことで,p値にまつわる解釈の把握しがたいところのほとんどが避けられ,結果としてもたらされた研究をぐんとはっきりさせる。
では,なぜ信頼区間はとても不人気なのだろうか?
実験心理学の研究誌では,研究論文のうち, 97%が有意性検定を含んでいるのに対し,およそ10%しか信頼区間を報告していない。
研究論文のほとんどは,区間を結論を支える証拠として用いておらず,かわりに有意性検定を頼りにしている。
権威ある学術誌の『ネイチャー』(Nature)ですら不十分だ。
『ネイチャー』の記事の89%が信頼区間や効果量を報告せずにp値を報告し,文脈において結果を解釈できないようにしてしまっている。
ある学術誌の編集者は,「進化上のニッチをどこかに持っていて,〔不幸にも〕引っかいても,たたいても,殺虫剤をまこうとも追い払うことができない」という点で「p値は蚊のようなものだ」と述べている。
この状況に対する説明として,信頼区間の幅がしばしば困惑するほど広いため,報告がなされないということが考えられる。
もう1つの説明としては,査読に基づく科学における同調圧力が強すぎることが挙げられる。
他の人と同じように統計をするのが最善で,そうしなければ査読者が論文を却下してしまうかもしれない。
あるいはp値についての混乱が広まっていることが信頼区間の利点を見えにくくしているのかもしれない。
もしくは,統計の授業で仮説検定が強調されすぎているために,ほとんどの科学者は,信頼区間をどのように計算してどのように用いるか,分からないようになってしまっているのだろう。
学術誌の編集者は時に信頼区間の報告を義務づけようとしてきた。 1980年代半ばに「アメリカン・ジャーナル・オブ・パブリック・ヘルス」の編集委員を務めたケネス・ロスマンは,強い語調の手紙を添えて,投稿されたものを突き返しはじめた。
「統計的仮説検定と統計的有意性に関する言及はすべて論文から削除されるべきです。私は統計的有意性に関するコメントとp値を削除するように求めています。もし私の基準(有意性検定の不適切さに関するもの)にご賛同いただけないようでしたら,この点に関してご遠慮なくご議論ください。さもなければ,他のいずこかで公刊することで,私の誤った見解だとあなたがお考えになっているかもしれないことを無視してください。」
ロスマンの編集委員としての3年の任期の間,p値のみを報告する論文の割合は急減した。
ロスマンが退任した後,有意性検定は復活したが,その後の編集者も同じように研究者に対して信頼区間を報告させるようにうまく促している。
しかし,信頼区間を報告しているにもかかわらず,信頼区間について記事の中で議論したり,信頼区間を使って結論を導いたりする研究者はほとんどいなかった。
かわりに信頼区間を単に有意性検定のように取り扱うことを選んだのだ。
ロスマンは『エピデミオロジー』(Epidemiology)誌の創設に移った。同誌は,統計の報告について強硬な方針をとった。
当初,有意性検定に慣れていた執筆者は信頼区間と一緒にp値を報告することを好んだ。
しかし,10年経つと考えが変わり,信頼区間のみを報告することが普通に行われるようになった。
学術誌の編集者で勇気のある(そして忍耐できる)人は,ロスマンの例にならって,その分野における統計の慣行を変えることができるだろう。
関連記事