臨床試験の間違った判断|【統計学・統計解析講義応用】
臨床試験の間違った判断
2007年,ナンバーセブン・プロテクト&パーフェクト・ビューティー・セラムに皮膚のしわを減らす効果がある可能性を示した臨床試験について, BBCが報道した後,この美容液は英国の薬局チェーンのブーツで最も売れた商品となった。
「ブリティッシュ・ジャーナル・オブ・ダーマトロジー」に掲載された試験によれば,この美容液により,被験者の43%でしわが減ったという。
これは統計的に有意な改善だった。
これに対して,同じ美容液で有効成分が入っていないものが与えられた統制群では, 22%の被験者しか改善せず,統計的に有意な改善とはならなかった。
そして,論文の執筆者が論文中でグループ間の差は統計的に有意でないと認めざるを得なかったにもかかわらず,この結果から,しわの抑制にはこの美容液が最善だということが科学的に証明されたと盛んに宣伝されることとなった。
不幸なことに,こうした統計の誤用は企業のマーケティング部門に限られたものではないのだ。
例えば,神経科学者はグループを比較するのに誤った手法をしばしば用いてきた。
読者は,兄が複数いる男性は同性愛者になりやすいということを示唆する2006年の研究についてのニュースを覚えているかもしれない。
だが,どうやってこの結論に至ったのだろうか。
この研究論文の執筆者はこの結果について,さまざまな要因が同性愛に及ぼす影響について分析した際に,兄の数だけが統計的に有意な影響を示したと説明している。
姉の数や非生物学的な兄(つまり養子の兄や親の再婚でできた兄)の数は,統計的に有意な影響を及ぼさなかった。
しかし,今まで見てきたように,このことは,さまざまな影響の間に統計的有意差が存在することを保証するものではない。
実際,データを詳しく見てみると,兄を持つ影響と姉を持つ影響との間に統計的有意差は存在しないように見える。
残念なことに,比較するためのp値の計算をするには,論文の中に載っているデータでは足りない。
このように決定的でない結果を誤って解釈することは,どの薬や食事が良いか悪いかを医者が決められないような印象を一般人に与える。
例えば,高いコレステロール値が心臓病と関連していることから,血中コレステロール値を下げるスタチンという薬は非常に人気があるものになっている。
しかし,このコレステロール値と心臓病との関連は,コレステロール値を下げることが患者にとって有益であることを証明するものではない。
そこで,「心臓血管系疾患の病歴がない患者について,スタチンは死亡率を引き下げるのか」という問題に答えるために,何万人もの患者の記録を再分析する一連の大規模メタ分析が5つ行われた。
これらの研究のうち3つが,スタチンが死亡率を引き下げるという結論を出した。
これに対して,残りの2つは,スタチンが役に立つかを示す十分な証拠はないという結論を出した。
これらの論文を読んだ医者・患者・記者はきっと混乱しただろう。
そして,スタチンに関する研究は相互に矛盾していて,決定的なものではないと考えたかもしれない。
だが,信頼区間からも分かるように,これら5つのメタ分析はスタチンの効果について似たような推定をしていた。
相対的なリスクの推定値はみな0,9あたりにあった。
これは,試験期間中にスタチンを服用した患者で死んだ人が10%少なくなったことを意味する。
5つの研究のうち2つの研究で,相対的なリスクが1になるところに信頼区間がかかっていた。
このことは,処置群と統制群の間で違いがないことを示すのだが,この2つの研究の効果量の推定は他の研究とうまく合致するものだった。
ここから研究の間に深刻な不一致があると主張するのは,馬鹿げたことだろう。
関連記事