p値で読み解く統計的仮説検定の秘密【ChatGPT統計解析】
統計的仮説検定は、偶然の可能性を考慮しながらデータの意味を評価する手法です。例えば、薬の効果を調べるランダム化研究で得られたリスク差が偶然の影響によるものかを検討します。仮定として薬の効果がない(リスク差=0)場合のデータ分布をコンピュータでシミュレーションし、実際のデータとの差異を評価します。この際に計算されるp値は、「偶然によって観測されたリスク差以上の値が出る確率」を示します。有意水準(通常5%)以下のp値なら帰無仮説を棄却し、効果があると判断します。一方、有意差がない場合でも帰無仮説が正しいとは言えず、ただ「帰無仮説が間違っていると結論できない」だけです。この方法はp値と有意水準に基づき帰無仮説を評価するための標準的な統計的手法です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計的仮説検定の方法
たまたまの可能性を考える
仮想的なランダム化研究の例を見ながら考えていきましょう。
薬を飲むか飲まないかによって翌朝に風邪が治るかどうかを調べるランダム化臨床研究を行ったとします。
そうしたら、200人の人が参加してくれて、次のような結果が得られました。
薬を飲み、風邪が治った人 70人
薬を飲み、風邪が治らなかった人 30人
薬を飲まず、風邪が治った人 60人
薬を飲まず、風邪が治らなかった人 40人
リスク差を計算すると、
70/100−60/100=0.10
となります。
さて、この0.10というリスク差は、本当に薬に効果があって出てきた数値なのでしょうか?
もしかすると、本当は薬の効果がなくてリスク差が0のはずなのに、たまたま偶然偏って割り付けられたために出てきた数値なのかもしれません。
しかし、どの群に属するかは調べようがないので、偏って割り付けられたかどうかを明らかにするのは現実的に不可能です。
そこで、浮気の例と同じように、薬の効果がまったくない(リスク差の値が0)と仮定して、先ほどの結果がたまたま偶然に生じてしまった可能性がどのくらいあるのか調べてみましょう。
帰無仮説という言葉を使うと、「帰無仮説(リスク差=0)が正しいと考えたときに、たまたまの偶然の影響によって、データから推定されたリスク差以上に極端な値(0.10以上の値)が生じてしまう可能性がどのくらいあるのか」を、これから調べてみようということです。
シミュレーション
便宜上、薬を飲むグループでも飲まないグループでも、ちょうど間をとって、
(70+60)/(100+100)=65%
の割合で風邪が治るはずだと考えます。
Type A〜Type Dの人たちがちょうど半分ずつ均等に割り付けられたとしたら、薬を飲むグループ100人のうち65人は風邪が治り、同じように、薬を飲まないグループ100人のうち65人は風邪が治るはずです。
このとき、リスク差は、
65/100−65/100=0
になるはずです。
しかし、薬の効果がなかったとしても、たまたま偶然の影響によって、2つのグループ間でリスクに差が生じてしまうことがあります。
この偶然の影響によるリスク差のブレ幅を、コンピューターシミュレーションで見てみることにしましょう。
手順は、
@薬を飲むグループの100人が確率65%で1、確率35%で0が出るように乱数を発生させる。
A薬を飲まないグループの100人が確率65%で1、確率35%で0が出るように乱数を発生させる。
B@とAで、1を「風邪が治った」、0を「治らなかった」と置き換えて、グループごとに風邪が治る人が何%いるかを計算し、そこからリスク差を計算する。
C@〜Bの作業を1000回繰り返す。
結果、リスク差0を中心とした正規分布になりました。
ただし、リスク差は0に近いところが山の中心ですが、ちょうど0にはなりません。
これは、コイントスを1000回して表が出る回数がちょうど500回になるとは限らないのと同じ原理です。
リスク差が0.10以上になったのは、1000回中62回でした。
本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が0.10以上になってしまう可能性が6.2%あるということです。
さて、この6.2%という数値をどう読み取るかですが、この数値のことをp値といいます。
つまりp値とは、
帰無仮説が正しい(比較するグループのリスクに違いがない)と考えたときに、たまたまの偶然の影響によって、データから推定されたリスク差以上に極端なリスク差が計算される可能性
のことです。
リスク差ではなくて、リスク比や他の効果の指標であってもよいのです。
先ほどの例で言えば、
片側p値=6.2%
両側p値=6.2%+6.2%=12.4%
となります。
この片側p値は、本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が0.10以上になってしまう可能性のことです。
両側p値は、本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が0.10以上またはー0.10以下になってしまう可能性のことです。
有意水準
もしもp値がとても小さければ、リスク差が0だと仮定したときに、たまたまの偶然の影響によってリスク差が0.10以上またはー0.10以下と計算されてしまう可能性がとても低い、と考えられますよね。
だとすれば、「現実のデータで可能性の低いことがたまたま起こった」と考えるよりは、「リスク差が0だという仮定(帰無仮説)が間違っている」すなわち「リスク差は0ではない」(薬の効果は0ではない)と考える方が自然です。
これが統計的仮説検定の流れです。
では、p値がどのくらい小さければ「リスク差は0ではない」と考えればよいのでしょうか。
明確な答えはありません。
ただし、医学領域では、慣例的に、しばしば両側で5%(片側で2.5%)という基準が用いられています。
両側p値が5%よりも小さければ、「リスク差は0ではない」と判断することになります。
本当のリスク差は0なのに、誤ってリスク差は0ではないと判断してしまう可能性が5%あることになるけれども、それくらいは許容しましょう、ということです。
この基準値のことを有意水準といいます。
この例では、有意水準両側5%で判断するということは「リスク差が0だと仮定したときに、たまたま偶然の影響によってリスク差が0.10以上またはー0.10以下とされる可能性」(p値)が5%未満なら、つまりたまたまの可能性が5%未満だったら、「リスク差が0だという仮定(帰無仮説)が間違っている」と判断しましょう、ということです。
しばしば、
p値<有意水準 なら「有意差あり」
p値≧有意水準 なら「有意差なし」
という言い方をします。
先ほどの例では、
両側p値=12.4%≧5%
なので、「有意差なし」ということになります。
背理法の原理からいって、得られたデータから統計的仮説検定を行った結果、有意差があったときのみ、帰無仮説は間違っている(比較するグループのリスクに違いがある)と言えることになります。
その他のことは一切言えないのです。
もし、得られたデータで統計的仮説検定を行った結果、有意差がなかったとしても、帰無仮説は正しい(比較するグループのリスクに違いがない)とは言えないのです。
帰無仮説が間違っているとは言えない(比較するグループのリスクに違いがあるとは言えない)と言えるのみなのです。
このように、帰無仮説が間違っているかどうかを有意水準とp値から判断する方法が、統計的仮説検定です。
統計的仮説検定は、データの背後にある実際の状況を推測するために、偶然の可能性を考慮しながら判断を行う手法であり、データ解析において重要な役割を果たします。この方法の基本的な考え方を、具体的な例を用いて説明します。例えば、ある薬が風邪に効果があるかどうかを調べるためのランダム化臨床試験を行ったとしましょう。この試験では、200人が参加し、薬を飲んだグループと飲まなかったグループにランダムに分けられました。その結果、薬を飲んで風邪が治った人が70人、治らなかった人が30人、薬を飲まなかったグループでは治った人が60人、治らなかった人が40人でした。このデータをもとにリスク差を計算すると、70/100?60/100=0.10となります。では、この0.10というリスク差が薬の効果によるものなのか、それとも偶然の影響で発生したものなのかを判断する必要があります。このような場合、統計的仮説検定が用いられます。統計的仮説検定の基本的なステップは、まず帰無仮説を立てることから始まります。ここでは、帰無仮説を「薬に効果はない(リスク差=0)」と仮定します。この仮定のもとで、観測されたリスク差0.10が偶然による可能性を調べます。このためにコンピューターシミュレーションを行い、薬の効果が本当にない場合に予想されるリスク差の分布を生成します。このシミュレーションでは、薬を飲むグループと飲まないグループがそれぞれ65%の確率で風邪が治ると仮定し、乱数を用いてデータを生成します。そして、各グループで風邪が治る割合を計算し、リスク差を求める作業を1000回繰り返します。その結果、リスク差0を中心とした正規分布が得られます。この分布から、リスク差が0.10以上になる確率を計算したところ、それが1000回中62回、すなわち6.2%でした。この6.2%という数値がp値に相当し、「帰無仮説が正しい場合に、偶然の影響でリスク差が0.10以上になる確率」を示します。次に、このp値を用いて帰無仮説を評価します。一般に、p値があまりに小さい場合、帰無仮説が正しいと仮定するのは合理的でないと考えられます。医学分野では、慣例的に有意水準として5%を採用することが多く、両側p値が5%未満であれば「帰無仮説を棄却し、リスク差は0ではない」と判断します。この例では、両側p値が12.4%であるため、帰無仮説を棄却せず、「有意差なし」と結論付けます。重要なのは、有意差がない場合でも帰無仮説が正しいとは言えない点です。この結果は「帰無仮説が間違っていると結論できない」というだけであり、帰無仮説の正当性を証明するものではありません。統計的仮説検定は、データに基づいて帰無仮説が間違っているかどうかを判断する方法であり、有意水準とp値がその基準となります。この手法を理解するには、背理法の概念も重要です。背理法とは、仮定が間違っている場合に生じる結果に基づいて、その仮定の正否を判断する論理的な方法です。統計的仮説検定では、帰無仮説が正しいと仮定してデータを解析し、その結果が現実のデータと矛盾するかどうかを検討します。もし有意差が認められれば、帰無仮説が誤りである可能性が高いと結論付けます。ただし、統計的仮説検定の結果は、データに基づいた確率的な判断に過ぎず、100%の確実性を持つものではありません。また、統計的仮説検定の結果を解釈する際には、得られたデータが試験の設計や実施方法に大きく依存することも理解する必要があります。適切なランダム化やサンプルサイズの確保、不偏性を確保するための試験設計が重要です。さらに、p値の解釈においても注意が必要です。小さいp値は帰無仮説が間違っている可能性を示唆しますが、効果の大きさや臨床的意義を必ずしも反映しているわけではありません。一方、p値が有意水準を超えている場合でも、帰無仮説を支持する証拠ではなく、単にデータから帰無仮説を棄却する十分な証拠が得られなかったというだけです。統計的仮説検定は、データを基に仮説を検証するための強力な手法ですが、その限界や前提条件を十分に理解し、適切に利用することが求められます。
関連記事