p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
統計的仮説検定は、偶然の可能性を考慮しながらデータの意味を評価する手法です。例えば、薬の効果を調べるランダム化研究で得られたリスク差が偶然の影響によるものかを検討します。仮定として薬の効果がない（リスク差=0）場合のデータ分布をコンピュータでシミュレーションし、実際のデータとの差異を評価します。この際に計算されるp値は、「偶然によって観測されたリスク差以上の値が出る確率」を示します。有意水準（通常5%）以下のp値なら帰無仮説を棄却し、効果があると判断します。一方、有意差がない場合でも帰無仮説が正しいとは言えず、ただ「帰無仮説が間違っていると結論できない」だけです。この方法はp値と有意水準に基づき帰無仮説を評価するための標準的な統計的手法です。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次 p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

統計的仮説検定の方法

たまたまの可能性を考える

仮想的なランダム化研究の例を見ながら考えていきましょう。

薬を飲むか飲まないかによって翌朝に風邪が治るかどうかを調べるランダム化臨床研究を行ったとします。

そうしたら、２００人の人が参加してくれて、次のような結果が得られました。

薬を飲み、風邪が治った人　７０人
薬を飲み、風邪が治らなかった人　３０人
薬を飲まず、風邪が治った人　６０人
薬を飲まず、風邪が治らなかった人　４０人

リスク差を計算すると、

７０／１００－６０／１００＝０．１０

となります。

さて、この０．１０というリスク差は、本当に薬に効果があって出てきた数値なのでしょうか？

もしかすると、本当は薬の効果がなくてリスク差が０のはずなのに、たまたま偶然偏って割り付けられたために出てきた数値なのかもしれません。

しかし、どの群に属するかは調べようがないので、偏って割り付けられたかどうかを明らかにするのは現実的に不可能です。

そこで、浮気の例と同じように、薬の効果がまったくない（リスク差の値が０）と仮定して、先ほどの結果がたまたま偶然に生じてしまった可能性がどのくらいあるのか調べてみましょう。

帰無仮説という言葉を使うと、「帰無仮説（リスク差＝０）が正しいと考えたときに、たまたまの偶然の影響によって、データから推定されたリスク差以上に極端な値（0.10以上の値）が生じてしまう可能性がどのくらいあるのか」を、これから調べてみようということです。

シミュレーション

便宜上、薬を飲むグループでも飲まないグループでも、ちょうど間をとって、

（７０＋６０）／（１００＋１００）＝６５％

の割合で風邪が治るはずだと考えます。

Type A～Type Dの人たちがちょうど半分ずつ均等に割り付けられたとしたら、薬を飲むグループ１００人のうち６５人は風邪が治り、同じように、薬を飲まないグループ１００人のうち６５人は風邪が治るはずです。

このとき、リスク差は、

６５／１００－６５／１００＝０

になるはずです。

しかし、薬の効果がなかったとしても、たまたま偶然の影響によって、２つのグループ間でリスクに差が生じてしまうことがあります。

この偶然の影響によるリスク差のブレ幅を、コンピューターシミュレーションで見てみることにしましょう。

手順は、

①薬を飲むグループの１００人が確率６５％で１、確率３５％で０が出るように乱数を発生させる。

②薬を飲まないグループの１００人が確率６５％で１、確率３５％で０が出るように乱数を発生させる。

③①と②で、１を「風邪が治った」、０を「治らなかった」と置き換えて、グループごとに風邪が治る人が何％いるかを計算し、そこからリスク差を計算する。

④①～③の作業を１０００回繰り返す。

結果、リスク差０を中心とした正規分布になりました。

ただし、リスク差は０に近いところが山の中心ですが、ちょうど０にはなりません。

これは、コイントスを１０００回して表が出る回数がちょうど５００回になるとは限らないのと同じ原理です。

リスク差が０．１０以上になったのは、１０００回中６２回でした。

本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が０．１０以上になってしまう可能性が６．２％あるということです。

さて、この６．２％という数値をどう読み取るかですが、この数値のことをｐ値といいます。

つまりｐ値とは、

帰無仮説が正しい（比較するグループのリスクに違いがない）と考えたときに、たまたまの偶然の影響によって、データから推定されたリスク差以上に極端なリスク差が計算される可能性

のことです。

リスク差ではなくて、リスク比や他の効果の指標であってもよいのです。

先ほどの例で言えば、

片側ｐ値＝６．２％

両側ｐ値＝６．２％＋６．２％＝１２．４％

となります。

この片側ｐ値は、本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が０．１０以上になってしまう可能性のことです。

両側ｐ値は、本当は差がないはずなのに、たまたまの偶然の影響によってリスク差が０．１０以上またはー０．１０以下になってしまう可能性のことです。

有意水準

もしもｐ値がとても小さければ、リスク差が０だと仮定したときに、たまたまの偶然の影響によってリスク差が０．１０以上またはー０．１０以下と計算されてしまう可能性がとても低い、と考えられますよね。

だとすれば、「現実のデータで可能性の低いことがたまたま起こった」と考えるよりは、「リスク差が０だという仮定（帰無仮説）が間違っている」すなわち「リスク差は０ではない」（薬の効果は０ではない）と考える方が自然です。

これが統計的仮説検定の流れです。

では、ｐ値がどのくらい小さければ「リスク差は０ではない」と考えればよいのでしょうか。

明確な答えはありません。

ただし、医学領域では、慣例的に、しばしば両側で５％（片側で２．５％）という基準が用いられています。

両側ｐ値が５％よりも小さければ、「リスク差は０ではない」と判断することになります。

本当のリスク差は０なのに、誤ってリスク差は０ではないと判断してしまう可能性が５％あることになるけれども、それくらいは許容しましょう、ということです。

この基準値のことを有意水準といいます。

この例では、有意水準両側５％で判断するということは「リスク差が０だと仮定したときに、たまたま偶然の影響によってリスク差が０．１０以上またはー０．１０以下とされる可能性」（ｐ値）が５％未満なら、つまりたまたまの可能性が５％未満だったら、「リスク差が０だという仮定（帰無仮説）が間違っている」と判断しましょう、ということです。

しばしば、

ｐ値＜有意水準　なら「有意差あり」
ｐ値≧有意水準　なら「有意差なし」

という言い方をします。

先ほどの例では、

両側ｐ値＝１２．４％≧５％

なので、「有意差なし」ということになります。

背理法の原理からいって、得られたデータから統計的仮説検定を行った結果、有意差があったときのみ、帰無仮説は間違っている（比較するグループのリスクに違いがある）と言えることになります。

その他のことは一切言えないのです。

もし、得られたデータで統計的仮説検定を行った結果、有意差がなかったとしても、帰無仮説は正しい（比較するグループのリスクに違いがない）とは言えないのです。

帰無仮説が間違っているとは言えない（比較するグループのリスクに違いがあるとは言えない）と言えるのみなのです。

このように、帰無仮説が間違っているかどうかを有意水準とｐ値から判断する方法が、統計的仮説検定です。

統計的仮説検定は、データの背後にある実際の状況を推測するために、偶然の可能性を考慮しながら判断を行う手法であり、データ解析において重要な役割を果たします。この方法の基本的な考え方を、具体的な例を用いて説明します。例えば、ある薬が風邪に効果があるかどうかを調べるためのランダム化臨床試験を行ったとしましょう。この試験では、200人が参加し、薬を飲んだグループと飲まなかったグループにランダムに分けられました。その結果、薬を飲んで風邪が治った人が70人、治らなかった人が30人、薬を飲まなかったグループでは治った人が60人、治らなかった人が40人でした。このデータをもとにリスク差を計算すると、70/100?60/100＝0.10となります。では、この0.10というリスク差が薬の効果によるものなのか、それとも偶然の影響で発生したものなのかを判断する必要があります。このような場合、統計的仮説検定が用いられます。統計的仮説検定の基本的なステップは、まず帰無仮説を立てることから始まります。ここでは、帰無仮説を「薬に効果はない（リスク差=0）」と仮定します。この仮定のもとで、観測されたリスク差0.10が偶然による可能性を調べます。このためにコンピューターシミュレーションを行い、薬の効果が本当にない場合に予想されるリスク差の分布を生成します。このシミュレーションでは、薬を飲むグループと飲まないグループがそれぞれ65%の確率で風邪が治ると仮定し、乱数を用いてデータを生成します。そして、各グループで風邪が治る割合を計算し、リスク差を求める作業を1000回繰り返します。その結果、リスク差0を中心とした正規分布が得られます。この分布から、リスク差が0.10以上になる確率を計算したところ、それが1000回中62回、すなわち6.2%でした。この6.2%という数値がp値に相当し、「帰無仮説が正しい場合に、偶然の影響でリスク差が0.10以上になる確率」を示します。次に、このp値を用いて帰無仮説を評価します。一般に、p値があまりに小さい場合、帰無仮説が正しいと仮定するのは合理的でないと考えられます。医学分野では、慣例的に有意水準として5%を採用することが多く、両側p値が5%未満であれば「帰無仮説を棄却し、リスク差は0ではない」と判断します。この例では、両側p値が12.4%であるため、帰無仮説を棄却せず、「有意差なし」と結論付けます。重要なのは、有意差がない場合でも帰無仮説が正しいとは言えない点です。この結果は「帰無仮説が間違っていると結論できない」というだけであり、帰無仮説の正当性を証明するものではありません。統計的仮説検定は、データに基づいて帰無仮説が間違っているかどうかを判断する方法であり、有意水準とp値がその基準となります。この手法を理解するには、背理法の概念も重要です。背理法とは、仮定が間違っている場合に生じる結果に基づいて、その仮定の正否を判断する論理的な方法です。統計的仮説検定では、帰無仮説が正しいと仮定してデータを解析し、その結果が現実のデータと矛盾するかどうかを検討します。もし有意差が認められれば、帰無仮説が誤りである可能性が高いと結論付けます。ただし、統計的仮説検定の結果は、データに基づいた確率的な判断に過ぎず、100%の確実性を持つものではありません。また、統計的仮説検定の結果を解釈する際には、得られたデータが試験の設計や実施方法に大きく依存することも理解する必要があります。適切なランダム化やサンプルサイズの確保、不偏性を確保するための試験設計が重要です。さらに、p値の解釈においても注意が必要です。小さいp値は帰無仮説が間違っている可能性を示唆しますが、効果の大きさや臨床的意義を必ずしも反映しているわけではありません。一方、p値が有意水準を超えている場合でも、帰無仮説を支持する証拠ではなく、単にデータから帰無仮説を棄却する十分な証拠が得られなかったというだけです。統計的仮説検定は、データを基に仮説を検証するための強力な手法ですが、その限界や前提条件を十分に理解し、適切に利用することが求められます。

関連記事

事実の統計的誇張

保健医療のためのQOL測定値の重要性

確率標本抽出の評価

誤り，勘違い，誤った解釈

量的研究のプロジェクト・スケジュール

電話調査の統計学

リモートデータエントリー

相関係数の解釈

統計学における項目反応理論

リスクを測って行動を決める統計学

1

2

p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】

p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

p値で読み解く統計的仮説検定の秘密【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

統計的仮説検定の方法

たまたまの可能性を考える

シミュレーション

有意水準

メニュー

サブメニュー

最新記事