統計的仮説検定の方法|【医療統計学・統計解析】
統計的仮説検定の方法
たまたまの可能性を考える
仮想的なランダム化研究の例を見ながら考えていきましょう。
薬を飲むか飲まないかによって翌朝に風邪が治るかどうかを調べるランダム化臨床研究を行ったとします。
そうしたら、200人の人が参加してくれて、次のような結果が得られました。
薬を飲み、風邪が治った人 70人
薬を飲み、風邪が治らなかった人 30人
薬を飲まず、風邪が治った人 60人
薬を飲まず、風邪が治らなかった人 40人
リスク差を計算すると、
70/100−60/100=0.10
となります。
さて、この0.10というリスク差は、本当に薬に効果があって出てきた数値なのでしょうか?
もしかすると、本当は薬の効果がなくてリスク差が0のはずなのに、たまたま偶然偏って割り付けられたために出てきた数値なのかもしれません。
しかし、どの群に属するかは調べようがないので、偏って割り付けられたかどうかを明らかにするのは現実的に不可能です。
そこで、浮気の例と同じように、薬の効果がまったくない(リスク差の値が0)と仮定して、先ほどの結果がたまたま偶然に生じてしまった可能性がどのくらいあるのか調べてみましょう。
帰無仮説という言葉を使うと、「帰無仮説(リスク差=0)が正しいと考えたときに、たまたまの偶然の影響によって、データから推定されたリスク差以上に極端な値(0.10以上の値)が生じてしまう可能性がどのくらいあるのか」を、これから調べてみようということです。
シミュレーション
便宜上、薬を飲むグループでも飲まないグループでも、ちょうど間をとって、
(70+60)/(100+100)=65%
の割合で風邪が治るはずだと考えます。
Type A〜Type Dの人たちがちょうど半分ずつ均等に割り付けられたとしたら、薬を飲むグループ100人のうち65人は風邪が治り、同じように、薬を飲まないグループ100人のうち65人は風邪が治るはずです。
このとき、リスク差は、
65/100−65/100=0
になるはずです。
しかし、薬の効果がなかったとしても、たまたま偶然の影響によって、2つのグループ間でリスクに差が生じてしまうことがあります。
この偶然の影響によるリスク差のブレ幅を、コンピューターシミュレーションで見てみることにしましょう。
手順は、
@薬を飲むグループの100人が確率65%で1、確率35%で0が出るように乱数を発生させる。
A薬を飲まないグループの100人が確率65%で1、確率35%で0が出るように乱数を発生させる。
B@とAで、1を「風邪が治った」、0を「治らなかった」と置き換えて、グループごとに風邪が治る人が何%いるかを計算し、そこからリスク差を計算する。
C@〜Bの作業を1000回繰り返す。
結果、リスク差0を中心とした正規分布になりました。
ただし、リスク差は0に近いところが山の中心ですが、ちょうど0にはなりません。
これは、コイントスを1000回して表が出る回数がちょうど500回になるとは限らないのと同じ原理です。
リスク差が0.10以上になったのは、1000回中62回でした。
本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が0.10以上になってしまう可能性が6.2%あるということです。
さて、この6.2%という数値をどう読み取るかですが、この数値のことをp値といいます。
つまりp値とは、
帰無仮説が正しい(比較するグループのリスクに違いがない)と考えたときに、たまたまの偶然の影響によって、データから推定されたリスク差以上に極端なリスク差が計算される可能性
のことです。
リスク差ではなくて、リスク比や他の効果の指標であってもよいのです。
先ほどの例で言えば、
片側p値=6.2%
両側p値=6.2%+6.2%=12.4%
となります。
この片側p値は、本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が0.10以上になってしまう可能性のことです。
両側p値は、本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が0.10以上またはー0.10以下になってしまう可能性のことです。
有意水準
もしもp値がとても小さければ、リスク差が0だと仮定したときに、たまたまの偶然の影響によってリスク差が0.10以上またはー0.10以下と計算されてしまう可能性がとても低い、と考えられますよね。
だとすれば、「現実のデータで可能性の低いことがたまたま起こった」と考えるよりは、「リスク差が0だという仮定(帰無仮説)が間違っている」すなわち「リスク差は0ではない」(薬の効果は0ではない)と考える方が自然です。
これが統計的仮説検定の流れです。
では、p値がどのくらい小さければ「リスク差は0ではない」と考えればよいのでしょうか。
明確な答えはありません。
ただし、医学領域では、慣例的に、しばしば両側で5%(片側で2.5%)という基準が用いられています。
両側p値が5%よりも小さければ、「リスク差は0ではない」と判断することになります。
本当のリスク差は0なのに、誤ってリスク差は0ではないと判断してしまう可能性が5%あることになるけれども、それくらいは許容しましょう、ということです。
この基準値のことを有意水準といいます。
この例では、有意水準両側5%で判断するということは「リスク差が0だと仮定したときに、たまたま偶然の影響によってリスク差が0.10以上またはー0.10以下とされる可能性」(p値)が5%未満なら、つまりたまたまの可能性が5%未満だったら、「リスク差が0だという仮定(帰無仮説)が間違っている」と判断しましょう、ということです。
しばしば、
p値<有意水準 なら「有意差あり」
p値≧有意水準 なら「有意差なし」
という言い方をします。
先ほどの例では、
両側p値=12.4%≧5%
なので、「有意差なし」ということになります。
背理法の原理からいって、得られたデータから統計的仮説検定を行った結果、有意差があったときのみ、帰無仮説は間違っている(比較するグループのリスクに違いがある)と言えることになります。
その他のことは一切言えないのです。
もし、得られたデータで統計的仮説検定を行った結果、有意差がなかったとしても、帰無仮説は正しい(比較するグループのリスクに違いがない)とは言えないのです。
帰無仮説が間違っているとは言えない(比較するグループのリスクに違いがあるとは言えない)と言えるのみなのです。
このように、帰無仮説が間違っているかどうかを有意水準とp値から判断する方法が、統計的仮説検定です。
関連記事