P値に惑わされるな！統計的有意性の真実とは？【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

統計的有意性検定に関する誤解は多く、特にP値が0.05を基準にして結果の優劣を過大評価することがある。例えば、治療法AがP=0.04、治療法BがP=0.06であった場合、AがBより優れていると判断されがちだが、効果の差はほとんどないかもしれない。また、P値は効果量を示すものではなく、統計的に有意な結果でも効果は小さいことがある。適切な検定力を持たない場合、誤った結論を導く可能性があるため、慎重な解釈が必要である。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次 P値に惑わされるな！統計的有意性の真実とは？【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

有意性に関する間違った判断

人を惑わせる結果を得るための優れた方法として，過剰なほど統計的有意性検定を使うというものがある。

だが，明示的に検定していない違いについて有意性を主張することもありえる。

まぎらわしいエラーバーを見て検定が不要だと思いこんでしまうかもしれないし，２つの治療法における統計的有意性の違いを見て両者の間に統計的有意差があると思いこんでしまうかもしれない。

まずは後者の問題から見てみよう。

有意性の有意でない違い

｢治療法Ａと治療法Ｂを偽薬と比較した。治療法Ａは偽薬に比べて有意な利点が見られたが，治療法Ｂは統計的に有意な利点がなかった。ゆえに，治療法Ａは治療法Ｂより優れている。｣

こんな話を聞くことがいつもあるだろう。

これは，薬物治療，外科的処方薬や手術によらない治療，それに実験結果を比較するときの簡単な方法だ。

そして，単純明快で，意味があることのように思われる。

しかし，有意性があるかないかの違いが存在していたとしても，常に差が有意になるわけではない。

その理由の１つとして挙げられるのが, Pく0.05という閾値が恣意的に決められているということだ。

一方がP = 0.04でもう一方がP＝0.06になるといった，よく似た結果を得ることはありえる。

このとき，各々が閾値より大きい側と小さい側に分かれているということだけから，誤って両者がはっきり違うと言ってしまうのだ。

２つ目の理由として挙げられるのが，P値は効果量を測定したものでないということだ。

つまり，同じようなP値だったとしても，効果がいつも同じようになるとは限らない。

統計的有意性がまったく同じ結果だったとしても，互いに矛盾することはありえるのだ。

それよりも，検定力について考えてみよう。

新しい実験的な薬のフィクシトルとソルヴィクスを偽薬と比べる場合，良好な検定力を得るために十分な数の被験者がいなければ，その効果に気づかないことがあるかもしれない。

もし，２つの薬の効果が同一だったとしても，50％の検定力しかなければ，フィクシトルには有意な利益があってソルヴィクスにはないと言ってしまう可能性がそれなりに出てくる。

もう１回試験を行えば，逆にソルヴィクスに利益があってフィクシトルにはないといった可能性も同じぐらい出てくるのだ。

ここでは，個々の薬を独立に偽薬と比較するのではなく，薬同士を比較すべきだ。

その際，２つの薬が同じぐらいの効果があるという仮説を検定することができるし，フィクシトルがソルヴィクスよりどれだけ有益なのかについての信頼区間を計算することもできる。

もしこの信頼区間にゼロが含まれるのならば，２つの薬の効果は同じぐらいなのかもしれない。

そうでなければ，一方の薬が明らかに勝っていることになる。このことは検定力を向上させはしないが２つの薬が違うという誤った結論が出てくるのを防ぐことになる。

有意性の差を追い求めがちな風潮を捨てて，差の有意性を確かめる方向に変えていくべきだ。

この微妙な違いは，再現研究(replication study)の結果を解釈するといったときに，気に留めておくべき重要なことだ。

なお，再現研究とは，科学者が先行研究の結果を再現しようとすることを指す。

再現研究の中には，「原論文では有意な結果が得られたが，より注意深く実施されたこの研究では有意な結果が得られなかった」といった形で，有意性に関して否定的な結果をこしらえるものがある。

しかし，最初の研究で報告された効果を検出するために十分な検定力があるように再現実験を計画したとしても，事実の誇張があるかもしれないのだ。

最初の研究は，効果を大げさに述べることになっていたのかもしれない。

小さな効果を検出するには大きな標本が必要になるから，再現実験の本当の検定力は想定よりも小さい可能性がある。

そして，先行研究と一貫しているのに，統計的に有意でない結果を得ることは，完全にありえることなのだ。

他の例を見てみよう。

2007年，ナンバーセブン・プロテクト・パーフェクト・ビューティー・セラムに皮膚のしわを減らす効果がある可能性を示した臨床試験について, BBCが報道した後，この美容液は英国の薬局チェーンのブーツで最も売れた商品となった。

「ブリティッシュ・ジャーナル・オブ・ダーマトロジー」に掲載された試験によれば，この美容液により，被験者の43％でしわが減ったという。

これは統計的に有意な改善だった。

これに対して，同じ美容液で有効成分が入っていないものが与えられた統制群では, 22%の被験者しか改善せず，統計的に有意な改善とはならなかった。

そして，論文の執筆者が論文中でグループ間の差は統計的に有意でないと認めざるを得なかったにもかかわらず，この結果から，しわの抑制にはこの美容液が最善だということが科学的に証明されたと盛んに宣伝されることとなった。

不幸なことに，こうした統計の誤用は企業のマーケティング部門に限られたものではないのだ。

例えば，神経科学者はグループを比較するのに誤った手法をしばしば用いてきた。

読者は，兄が複数いる男性は同性愛者になりやすいということを示唆する2006年の研究についてのニュースを覚えているかもしれない。

だが，どうやってこの結論に至ったのだろうか。

この研究論文の執筆者はこの結果について，さまざまな要因が同性愛に及ぼす影響について分析した際に，兄の数だけが統計的に有意な影響を示したと説明している。

姉の数や非生物学的な兄(つまり養子の兄や親の再婚でできた兄)の数は，統計的に有意な影響を及ぼさなかった。

しかし，今まで見てきたように，このことは，さまざまな影響の間に統計的有意差が存在することを保証するものではない。

実際，データを詳しく見てみると，兄を持つ影響と姉を持つ影響との間に統計的有意差は存在しないように見える。

残念なことに，比較するためのP値の計算をするには，論文の中に載っているデータでは足りない。

このように決定的でない結果を誤って解釈することは，どの薬や食事が良いか悪いかを医者が決められないような印象を一般人に与える。

例えば，高いコレステロール値が心臓病と関連していることから，血中コレステロール値を下げるスタチンという薬は非常に人気があるものになっている。

しかし，このコレステロール値と心臓病との関連は，コレステロール値を下げることが患者にとって有益であることを証明するものではない。

そこで，｢心臓血管系疾患の病歴がない患者について，スタチンは死亡率を引き下げるのか｣という問題に答えるために，何万人もの患者の記録を再分析する一連の大規模メタ分析が５つ行われた。

これらの研究のうち３つが，スタチンが死亡率を引き下げるという結論を出した。

これに対して，残りの２つは，スタチンが役に立つかを示す十分な証拠はないという結論を出した。

これらの論文を読んだ医者・患者・記者はきっと混乱しただろう。

そして，スタチンに関する研究は相互に矛盾していて，決定的なものではないと考えたかもしれない。

だが，これら５つのメタ分析はスタチンの効果について似たような推定をしていた。

相対的なリスクの推定値はみな0.9あたりにあった。

これは，試験期間中にスタチンを服用した患者で死んだ人が10％少なくなったことを意味する。

5つの研究のうち２つの研究で，相対的なリスクが１になるところに信頼区間がかかっていた。

このことは，処置群と統制群の間で違いがないことを示すのだが，この２つの研究の効果量の推定は他の研究とうまく合致するものだった。

ここから研究の間に深刻な不一致があると主張するのは，馬鹿げたことだろう。

統計的有意性検定に関する誤解は非常に多く、特にP値を0.05という閾値で解釈する際には注意が必要です。多くの研究や実験では、P値が0.05未満であれば「有意」であり、0.05以上であれば「有意ではない」という二分法的な解釈がされがちですが、この単純な基準は多くの誤解を生みます。実際、P値が0.05をわずかに下回ったからといって、その結果が本質的に重要であるとは限らず、逆に0.05をわずかに上回った結果が無意味であるわけでもありません。例えば、ある治療法AがP=0.04であった場合と治療法BがP=0.06であった場合、一般的な解釈では治療法Aが有意な結果をもたらし、治療法Bは有意な結果を示さなかったという判断がされることがあります。しかし、これらのP値の差は非常に小さく、実質的な効果の違いはほとんどないかもしれません。それにもかかわらず、治療法AがBよりも優れていると結論づけられることが多々あります。これは、統計的有意性に対する誤った理解によって引き起こされる典型的な誤りです。P値自体は、単に観察された結果が偶然に生じた可能性を示すものであり、その値が0.05未満であったからといって、結果が確定的であるわけではありません。これは統計的な慣習に過ぎず、0.05という閾値は恣意的に設定されたものです。この閾値を基準にすることで、研究者や実務家はしばしば「有意である」「有意でない」という結論を急いで出しがちですが、このような判断は非常に危険です。統計的有意性を判断する際には、P値だけに頼るのではなく、効果量や信頼区間、さらに検定力についても考慮する必要があります。効果量は、観察された現象の実際の大きさを示すものであり、P値が示す「偶然性」とは異なる概念です。同じP値であっても、効果量が大きい場合と小さい場合では、その結果の意味合いは全く異なります。また、信頼区間も重要な情報を提供します。信頼区間は、観察された効果がどの範囲にあるのかを示し、その範囲内に真の効果が存在する可能性が高いとされます。信頼区間が狭い場合、結果はより確定的であり、広い場合は不確実性が高いと考えられます。P値が0.05をわずかに下回っている場合でも、信頼区間が広いときは、その結果には注意が必要です。たとえば、P=0.04の結果が得られたとしても、その信頼区間が効果のない0を含んでいる場合、実際の効果がほとんどない可能性も考慮しなければなりません。また、統計的な検定力も見逃してはなりません。検定力とは、真の効果が存在する場合に、その効果を検出できる確率を指します。検定力が低い場合、真の効果が見逃される可能性が高くなります。例えば、新しい薬の効果を試験する際、十分な数の被験者がいなければ、統計的に有意な結果が得られなかったとしても、その薬が実際には効果を持っている可能性があります。逆に、十分な検定力があって初めて、結果が信頼できるものとなります。検定力が50％しかない場合、実際には効果がないにもかかわらず、偶然に統計的有意な結果が得られる可能性が高まります。このような状況では、繰り返し実験を行うことで、結果が大きく変わることが予想されます。したがって、1回の実験結果だけで結論を急ぐのではなく、複数の実験を行い、その結果を総合的に判断する必要があります。さらに、比較すべき対象が偽薬（プラセボ）ではなく、他の治療法や薬である場合、その効果の相対的な優劣を評価するためには、直接的な比較が必要です。例えば、2つの新薬がある場合、それぞれを独立して偽薬と比較するのではなく、2つの薬自体を直接比較することが重要です。その際には、両者の効果がどれだけ異なるのかを示す信頼区間を計算し、結果を慎重に解釈する必要があります。もし信頼区間が0を含む場合、効果の差はほとんどない可能性があり、一方の薬がもう一方に比べて優れているとは言えません。こうした分析を行うことで、統計的に誤った結論に導かれるリスクを減らすことができます。さらに、再現実験（replication study）の重要性も見逃せません。再現実験とは、他の研究者が先行研究を再現し、同様の結果が得られるかどうかを検証するプロセスです。このような実験が行われることで、先行研究の結果の信頼性が確認されますが、再現実験で有意な結果が得られないことも少なくありません。これは、元の研究において検出された効果が誇張されていたり、検定力が不十分であった可能性があります。再現実験の結果が元の研究と矛盾している場合でも、必ずしもその効果が存在しないとは言えません。例えば、ある効果が小さくて検出が難しい場合、再現実験にはより大きなサンプルサイズが必要です。サンプルサイズが不十分だと、元の研究と同じ効果を見つけることができない可能性が高まります。このような現象は、特に医学や生物学の分野で多く見られます。例えば、ある薬が有効であるとされる最初の研究が小規模で行われた場合、再現実験では十分なサンプルサイズが確保されないことがあり、その結果、統計的に有意な結果が得られないことがあります。このような場合、最初の研究が誇張された結論を導いていた可能性も考慮しなければなりません。さらに、統計的有意性検定の誤用は、研究者や企業だけに限られた問題ではありません。一般市民や報道機関も、統計結果を誤って解釈することがあります。例えば、2007年にBBCが報道した美容液に関する臨床試験では、その製品がしわを減らす効果があるとされ、多くの注目を集めました。しかし、実際の試験では、その美容液の効果が統計的に有意であるとは言えないものでした。それにもかかわらず、マーケティングにおいては「効果が証明された」と宣伝され、多くの消費者が誤解を抱く結果となりました。このような事例は、統計の誤用が企業のマーケティング戦略に利用されることがある一例です。また、神経科学や社会科学の分野でも、統計的有意性に対する誤解がしばしば見られます。例えば、2006年の研究では、兄が複数いる男性は同性愛者になりやすいと報告されましたが、その結論は誤った統計手法に基づいていました。この研究では、さまざまな要因を分析した結果、兄の数だけが統計的に有意な影響を示したとされていますが、他の要因との比較は行われていませんでした。結果として、この研究は多くの批判を受け、統計手法の適切さが問われました。

関連記事

アウトカムの統計学

小規模非盲検非ランダム化無対照の試験

階級

統計学における標本抽出方法2

システムの信頼性の統計学

データを取り扱う変数

量的研究における厳密性の強化

エビデンスに関する情報の使用・作成・発信

製造業に関する統計

メタアナリシスと系統的レビュー

前へ

1

2

3

4

5

6

次へ

【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
【医療統計解析】

【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

Google Gemini・Python・エクセルを使った講義で最速マスター

P値に惑わされるな！統計的有意性の真実とは？【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

P値に惑わされるな！統計的有意性の真実とは？【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

有意性に関する間違った判断

有意性の有意でない違い

サブメニュー

最新記事