有意性に関する間違った判断|【統計学・統計解析講義応用】
有意性に関する間違った判断
人を惑わせる結果を得るための優れた方法として,過剰なほど統計的有意性検定を使うというものがある。
だが,明示的に検定していない違いについて有意性を主張することもありえる。
まぎらわしいエラーバーを見て検定が不要だと思いこんでしまうかもしれないし,2つの治療法における統計的有意性の違いを見て両者の間に統計的有意差があると思いこんでしまうかもしれない。
まずは後者の問題から見てみよう。
有意性の有意でない違い
「治療法Aと治療法Bを偽薬と比較した。治療法Aは偽薬に比べて有意な利点が見られたが,治療法Bは統計的に有意な利点がなかった。ゆえに,治療法Aは治療法Bより優れている。」
こんな話を聞くことがいつもあるだろう。
これは,薬物治療,外科的処方薬や手術によらない治療,それに実験結果を比較するときの簡単な方法だ。
そして,単純明快で,意味があることのように思われる。
しかし,有意性があるかないかの違いが存在していたとしても,常に差が有意になるわけではない。
その理由の1つとして挙げられるのが, Pく0.05という閾値が恣意的に決められているということだ。
一方がP = 0.04でもう一方がP=0.06になるといった,よく似た結果を得ることはありえる。
このとき,各々が閾値より大きい側と小さい側に分かれているということだけから,誤って両者がはっきり違うと言ってしまうのだ。
2つ目の理由として挙げられるのが,P値は効果量を測定したものでないということだ。
つまり,同じようなP値だったとしても,効果がいつも同じようになるとは限らない。
統計的有意性がまったく同じ結果だったとしても,互いに矛盾することはありえるのだ。
それよりも,検定力について考えてみよう。
新しい実験的な薬のフィクシトルとソルヴィクスを偽薬と比べる場合,良好な検定力を得るために十分な数の被験者がいなければ,その効果に気づかないことがあるかもしれない。
もし,2つの薬の効果が同一だったとしても,50%の検定力しかなければ,フィクシトルには有意な利益があってソルヴィクスにはないと言ってしまう可能性がそれなりに出てくる。
もう1回試験を行えば,逆にソルヴィクスに利益があってフィクシトルにはないといった可能性も同じぐらい出てくるのだ。
ここでは,個々の薬を独立に偽薬と比較するのではなく,薬同士を比較すべきだ。
その際,2つの薬が同じぐらいの効果があるという仮説を検定することができるし,フィクシトルがソルヴィクスよりどれだけ有益なのかについての信頼区間を計算することもできる。
もしこの信頼区間にゼロが含まれるのならば,2つの薬の効果は同じぐらいなのかもしれない。
そうでなければ,一方の薬が明らかに勝っていることになる。このことは検定力を向上させはしないが2つの薬が違うという誤った結論が出てくるのを防ぐことになる。
有意性の差を追い求めがちな風潮を捨てて,差の有意性を確かめる方向に変えていくべきだ。
この微妙な違いは,再現研究(replication study)の結果を解釈するといったときに,気に留めておくべき重要なことだ。
なお,再現研究とは,科学者が先行研究の結果を再現しようとすることを指す。
再現研究の中には,「原論文では有意な結果が得られたが,より注意深く実施されたこの研究では有意な結果が得られなかった」といった形で,有意性に関して否定的な結果をこしらえるものがある。
しかし,最初の研究で報告された効果を検出するために十分な検定力があるように再現実験を計画したとしても,事実の誇張があるかもしれないのだ。
最初の研究は,効果を大げさに述べることになっていたのかもしれない。
小さな効果を検出するには大きな標本が必要になるから,再現実験の本当の検定力は想定よりも小さい可能性がある。
そして,先行研究と一貫しているのに,統計的に有意でない結果を得ることは,完全にありえることなのだ。
他の例を見てみよう。
2007年,ナンバーセブン・プロテクト・パーフェクト・ビューティー・セラムに皮膚のしわを減らす効果がある可能性を示した臨床試験について, BBCが報道した後,この美容液は英国の薬局チェーンのブーツで最も売れた商品となった。
「ブリティッシュ・ジャーナル・オブ・ダーマトロジー」に掲載された試験によれば,この美容液により,被験者の43%でしわが減ったという。
これは統計的に有意な改善だった。
これに対して,同じ美容液で有効成分が入っていないものが与えられた統制群では, 22%の被験者しか改善せず,統計的に有意な改善とはならなかった。
そして,論文の執筆者が論文中でグループ間の差は統計的に有意でないと認めざるを得なかったにもかかわらず,この結果から,しわの抑制にはこの美容液が最善だということが科学的に証明されたと盛んに宣伝されることとなった。
不幸なことに,こうした統計の誤用は企業のマーケティング部門に限られたものではないのだ。
例えば,神経科学者はグループを比較するのに誤った手法をしばしば用いてきた。
読者は,兄が複数いる男性は同性愛者になりやすいということを示唆する2006年の研究についてのニュースを覚えているかもしれない。
だが,どうやってこの結論に至ったのだろうか。
この研究論文の執筆者はこの結果について,さまざまな要因が同性愛に及ぼす影響について分析した際に,兄の数だけが統計的に有意な影響を示したと説明している。
姉の数や非生物学的な兄(つまり養子の兄や親の再婚でできた兄)の数は,統計的に有意な影響を及ぼさなかった。
しかし,今まで見てきたように,このことは,さまざまな影響の間に統計的有意差が存在することを保証するものではない。
実際,データを詳しく見てみると,兄を持つ影響と姉を持つ影響との間に統計的有意差は存在しないように見える。
残念なことに,比較するためのP値の計算をするには,論文の中に載っているデータでは足りない。
このように決定的でない結果を誤って解釈することは,どの薬や食事が良いか悪いかを医者が決められないような印象を一般人に与える。
例えば,高いコレステロール値が心臓病と関連していることから,血中コレステロール値を下げるスタチンという薬は非常に人気があるものになっている。
しかし,このコレステロール値と心臓病との関連は,コレステロール値を下げることが患者にとって有益であることを証明するものではない。
そこで,「心臓血管系疾患の病歴がない患者について,スタチンは死亡率を引き下げるのか」という問題に答えるために,何万人もの患者の記録を再分析する一連の大規模メタ分析が5つ行われた。
これらの研究のうち3つが,スタチンが死亡率を引き下げるという結論を出した。
これに対して,残りの2つは,スタチンが役に立つかを示す十分な証拠はないという結論を出した。
これらの論文を読んだ医者・患者・記者はきっと混乱しただろう。
そして,スタチンに関する研究は相互に矛盾していて,決定的なものではないと考えたかもしれない。
だが,これら5つのメタ分析はスタチンの効果について似たような推定をしていた。
相対的なリスクの推定値はみな0.9あたりにあった。
これは,試験期間中にスタチンを服用した患者で死んだ人が10%少なくなったことを意味する。
5つの研究のうち2つの研究で,相対的なリスクが1になるところに信頼区間がかかっていた。
このことは,処置群と統制群の間で違いがないことを示すのだが,この2つの研究の効果量の推定は他の研究とうまく合致するものだった。
ここから研究の間に深刻な不一致があると主張するのは,馬鹿げたことだろう。
関連記事