P値で驚きを測る!統計的仮説検定の真実【ChatGPT統計解析】
実験科学は、主に違いを測定することが目的であり、統計はその違いを判断するために使われる。例えば、薬の効果や酵素の合成量などであるが、運や偶然の違いも観測されるため、統計的仮説検定が必要となる。仮説検定は、薬が効果がない場合でも観測された結果が偶然によるものかどうかを判断するもので、P値はその驚きの度合いを示す。P値が小さいほど、偶然の可能性が低くなり、薬が機能している可能性が高くなるが、効果の大きさを示すものではない。P値は効果の有無を確実に証明するわけではなく、仮説がデータと一致しているかどうかを示すに過ぎない。また、統計的有意性が実質的な重要性を意味するわけではなく、統計的に有意でない結果もデータ量によって異なる結論が得られる可能性がある。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
P値の力
実験科学の多くは,つまるところ,違いを測定することに行き着く。
例えば,ある薬は他のものよりよく効くか,ある種類の遺伝子を持つ細胞は他の種類の遺伝子を持つ細胞より酵素を多く合成するか,あるタイプの信号処理アルゴリズムは他のものよりパルスをよく検出できるか,ある触媒は化学反応をより効果的に加速するかといったたぐいの問題だ。
統計は,こうしたたぐいの違いについて判断を下すために用いられる。
ただし,運や偶然変動による何らかの違いを観測することは常にある。
だから,統計学者は,運によってたやすく生じることがある違いよりも大きな違いがある
かぜ薬を試験しているとしよう。
試験対象の新薬を使うと,かぜの症状が続く期間が1日短くなる見こみがある。
このことを証明するために,かぜをひいた患者を20人見つけ,その半数に新薬を,残りの半数に偽薬を与えるとしよう。
そして,かぜの長さを調べ,新薬の使用の有無によってかぜの長さの平均がどうなるのかについて明らかにするとしよう。
だが,すべてのかぜが同じというわけではない。
平均的なかぜは1週間続くかもしれないが,数日しか続かないかぜもあるだろう。
また,2週間かそれ以上続くかぜもあるだろう。
本物の薬が与えられた10人の患者グループ全員がとても短いかぜにかかっていたということもありえる。
どうすれば,単に運の良い患者がいただけだったと示すのではなく,薬が機能すると示せるだろうか。
統計的仮説検定がこの問題に答えてくれる。
もし,典型的なかぜの症例の分布一短いかぜにかかる患者がどれくらいか,長いかぜにかかる患者がどれくらいか,平均的な長さのかぜにかかる患者がどれくらいかという大まかな情報-を知っていれば,ランダムに抽出された患者の標本で,全員が平均より長い,あるいは平均より短いかぜにかかることがどれだけありそうかについて判断できる。
仮説検定(hypothesis test、有意性検定[significance test]としても知られている)を行うことで,「薬がまったく効果がないものだった場合に,観測された結果が実験において生み出される確率はどれはどか」という問題に答えることができる。
もし,1人にしか薬を試していなければ,通常より少し早くかぜが終わったとしても意外すぎるということにはならない。
ほとんどのかぜはぴったり平均どおりに終わるわけではないのだ。
だが,1000万人の患者に薬を試したとき,偶然これらの患者全員が短いかぜにかかっただけにすぎないということはとてもありえそうにない。
薬が実際に機能したというのが,よりありえそうなことだ。
科学者はこうした直感をP値(p value)と呼ばれる概念で定量化している。
P値というのは真の効果あるいは真の違いがないという仮定のもとで,実際に観測したものと同じぐらいかさらに極端な違いを見せるデータが得られる確率のことだ。
だから,薬を与えた100人の患者のかぜが平均して1日短いことが分かった場合,この結果に対する川直は,薬が実際にはまったく機能しなかった場合に,単に偶然のみによって,対照群よりもかぜが平均して1日短い確率のことなのだ。
想像がつくかもしれないが,実際は,効果の大きさーかぜが4日短いのはかぜが1日しか短くないことほどありふれたことではないーと薬を試した患者の数によって決まってくる。
P値というのは正しさを測定するものでもなければ,違いがどれだけ重大かを測定するものでもないということを忘れないようにしよう。
むしろ,P値は驚きを測定するものであると考えよう。
薬に効果がなく,2つのグループの違いに運以外の理由がないと仮定すれば、値が小さければ小さいほど,結果はより驚くべきものになり,より偶然的なものになる。
そうでなければ,仮定が誤っていて,薬が本当に機能していることになる。
P値を「本当にグループの間に違いがあるのか」という問題への答えに翻訳するには,どうすればよいだろうか。
よく使われるおおざっぱなやり方として,Pく0.05となる違いは何でも統計的に有意だとするものがある。
0.05が選ばれることに,論理的にあるいは統計学的に特別な理由があるわけではない。
しかし, 0.05というのは科学における慣習として長い間一般的に使われてきた。
P値は実験対象となっているグループの間で違いがないという仮定を行うことで機能するということに注意しよう。
これは有意性検定が直感に反するところだ。
薬が機能すると示したければ,薬が機能しない状況がデータに合わないことを示すのだ。
このため,P値の適用範囲は,打破したい仮説が数学的に表せるどんな状況に対しても広げることができる。
しかし,P値には限界がある。
P値は驚きを測定するもので,小さければ小さいほど驚くべきことを示唆することを思い出そう。
P値は効果の大きさを測定するものではない。
「この薬は4倍長生きさせる」といった極めて大きい効果を測定するか,ごく小さな効果だが非常に確実な効果を測定することで,極めて小さなP値を得ることができる。
そして,どんな薬にせよどんな処置にせよ普通は何らかの実際の効果がある。
このため,非常に小さく,しかも相対的に重要でない違いすら見つけられるほどの大量のデータを集めることで,常に統計的に有意な結果を得ることができる。
ブルース・トンプソンは以下のように記している。
「統計的有意性検定には同語反復的な論理が関わりうる。それは,何百人もの被験者のデータを集めた疲労した研究者が,多くの被験者がいたかどうかというすでに知っていることを評価するために統計的検定を行うという意味だ。なぜすでに知っているかと言うと,研究者がデータを集めて疲労したということを知っているからだ。この同語反復が,知識の集積という面で相当のダメージを生み出してきた。」
要するに,統計的に有意であることは,結果に実質的な重要性があることを意味しない。
また,統計的に有意でないことは,大した情報をもたらさない。
統計的に有意でない違いは,雑音しかないことを示しているかもしれないし,単にもっとたくさんのデータを集めることではっきりさせることができる実質的な効果を示しているのかもしれない。
仮説が真か偽かを教えてくれる数学上の道具立てはない。
仮説がデータと合っているかということしか分からないのだ。
データが乏しかったり,はっきりしなかったりすれば,結論は不確実なものになるだろう。
実験科学の多くは、最終的に「違いを測定する」という基本的な目的に帰結します。具体的には、ある薬が他の薬よりも効果的であるかどうか、ある種類の遺伝子を持つ細胞が他の種類の細胞よりも多く酵素を合成するかどうか、または、特定の触媒が化学反応をより効率的に加速させるかどうかといったことを調べるわけです。こうした違いを測定するためには、統計的な手法が非常に重要になります。統計は、観察された違いが実際に意味のあるものか、それとも単なる偶然の産物かを判断するために用いられるのです。しかし、実際のデータ収集では、常に運や偶然の変動が絡んできます。そのため、観測された違いが運によるものよりも大きなものであるかどうかを評価することが必要です。この評価のために用いられるのが、統計的仮説検定と呼ばれる手法です。統計的仮説検定では、無作為に発生する偶然の違いと実際に効果がある場合の違いを区別するための基準が提供されます。例えば、新しいかぜ薬の効果を調べる実験を考えてみましょう。かぜをひいた20人の患者を対象に、半数に新薬を、残りの半数に偽薬(プラセボ)を投与し、かぜの症状が続く期間を測定します。このとき、新薬を使用したグループのかぜが平均して1日短くなるという結果が得られたとします。しかし、全ての患者が同じようにかぜにかかるわけではなく、症状の長さも人それぞれです。ある患者は数日で治るかもしれないし、別の患者は2週間以上症状が続くかもしれません。そのため、偶然的に新薬を服用した10人全員が比較的短いかぜにかかっただけである可能性も否定できません。このような場合に、統計的仮説検定を用いて、「観察された違いが本当に薬の効果によるものか、それとも単なる運によるものか」を判断することが求められるのです。仮説検定を行う際には、典型的なかぜの症例がどのように分布しているか、つまり、短いかぜにかかる患者の割合、長いかぜにかかる患者の割合、そしてその中間の平均的な患者がどの程度いるのかといった情報が役立ちます。この情報を基にして、ランダムに選ばれた患者のサンプルが全員平均より短いかぜにかかる確率や、逆に全員が平均より長いかぜにかかる確率を統計的に判断することができるのです。ここで重要なのがP値という概念です。P値は、観測された結果が偶然によって生じる確率を定量的に示すもので、仮説検定の核心部分を占めます。P値は「薬が実際には効果を持たない場合に、観察された結果が得られる確率」として定義されます。つまり、新薬を投与した100人の患者のかぜが平均して1日短くなったとき、この結果のP値は、「薬が全く効果を持たなかった場合に、偶然によって対照群よりも1日短い症状が見られる確率」となります。P値が低いほど、偶然でそのような結果が生じる可能性が低く、薬が実際に効果を持っていると考えられるわけです。しかし、P値そのものは効果の大きさを直接示すものではなく、また「正しさ」を測る指標でもありません。むしろ、P値は「驚きの度合い」を示すものと考えるべきです。たとえば、薬が全く機能していないという仮定のもとで、観察されたデータが偶然により生じる可能性をP値が測定しています。P値が小さいほど、その結果が偶然に起こる可能性は低くなり、薬が実際に機能している可能性が高くなります。したがって、P値は効果の重大さを示すものではなく、データに基づいてどれだけ驚くべき結果が得られたかを示す指標です。このようなP値を使って、実験結果がどれだけ意味のあるものであるかを判断することができるわけですが、一般的に科学的な研究では、P値が0.05未満の場合に「統計的に有意」と判断されることが多いです。これは、観測された結果が偶然によって生じる確率が5%未満である場合、その結果が偶然ではなく、何らかの実際の要因によるものであると見なされるからです。しかし、0.05という値には特別な意味があるわけではなく、長年の科学的慣習として使われてきたに過ぎません。実際には、P値が0.05より小さいからといって、必ずしも効果が非常に大きいわけではありませんし、逆にP値が0.05を超えたからといって効果が全くないわけでもありません。P値が低ければ低いほど偶然による可能性が低くなり、結果がより信頼できるものとなりますが、これだけで効果の大きさや重要性を判断することはできません。さらに、P値は実験における仮説が正しいかどうかを直接教えてくれるものではありません。仮説がデータとどれだけ一致しているかを示すに過ぎず、データが不十分であれば結論も不確実なものになります。データの量が多い場合、非常に小さな違いでもP値が低くなり、統計的に有意であるとされることがあります。例えば、極めて小さな効果でも、十分な数のサンプルを集めればP値は小さくなり、結果が統計的に有意とされることがあります。これは、実験に使用するサンプルの数が結果に大きな影響を与えるためです。したがって、統計的に有意な結果が得られたとしても、その結果が実際に意味のあるものかどうかを慎重に評価する必要があります。たとえば、P値が非常に小さくても、効果の大きさが極めて小さい場合、実際にはその結果が重要でない可能性もあるのです。ブルース・トンプソンが指摘するように、統計的有意性検定には同語反復的な論理が関与することがあります。彼は、研究者が多くの被験者のデータを集めて疲労した結果、得られた統計的有意性が「多くの被験者がいたかどうか」を評価するだけのものに過ぎなくなる可能性を指摘しています。これは、統計的有意性が必ずしも実質的な重要性を持つわけではないことを示しています。また、統計的有意性が得られなかった場合も、その結果が無意味であるとは限りません。統計的に有意でない結果は、単なる偶然によるものかもしれませんが、データ量が不十分であるために見逃されている実質的な効果がある可能性もあるのです。最終的に、仮説が真か偽かを判断する絶対的な数学的道具は存在せず、データが仮説とどれだけ合致しているかを評価することしかできません。したがって、データが不足している場合や不確実な場合、結論も不確実なものとなるでしょう。このように、統計的仮説検定とP値の理解は、実験結果の評価において重要な役割を果たしますが、それだけで全ての問題を解決できるわけではありません。
関連記事