美容液効果と統計の誤用が招く誤解【ChatGPT統計解析】
ナンバーセブン・プロテクト&パーフェクト・ビューティー・セラムのしわ減少効果を示した臨床試験が2007年にBBCで報道され、英国のブーツで人気商品となったが、試験結果は統計的に有意な改善とされながらも、論文の執筆者は統制群との有意差を認めなかった。それにも関わらず、科学的証明と誇張され広まった。こうした統計誤用は企業に限らず、神経科学者も誤手法を用いる例がある。2006年の研究では、男性の兄の数が同性愛の有意な影響を示したが、姉や非生物学的兄の影響は有意でなく、データ不足で有意差保証も難しかった。スタチン研究では心臓血管疾患の死亡率をめぐり、5件のメタ分析中3件が効果を支持、2件は証拠不十分としたが、信頼区間は類似しており、服用患者の死亡率は10%低下、全体として深刻な不一致とは言えない。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
臨床試験の間違った判断
2007年,ナンバーセブン・プロテクト&パーフェクト・ビューティー・セラムに皮膚のしわを減らす効果がある可能性を示した臨床試験について, BBCが報道した後,この美容液は英国の薬局チェーンのブーツで最も売れた商品となった。
「ブリティッシュ・ジャーナル・オブ・ダーマトロジー」に掲載された試験によれば,この美容液により,被験者の43%でしわが減ったという。
これは統計的に有意な改善だった。
これに対して,同じ美容液で有効成分が入っていないものが与えられた統制群では, 22%の被験者しか改善せず,統計的に有意な改善とはならなかった。
そして,論文の執筆者が論文中でグループ間の差は統計的に有意でないと認めざるを得なかったにもかかわらず,この結果から,しわの抑制にはこの美容液が最善だということが科学的に証明されたと盛んに宣伝されることとなった。
不幸なことに,こうした統計の誤用は企業のマーケティング部門に限られたものではないのだ。
例えば,神経科学者はグループを比較するのに誤った手法をしばしば用いてきた。
読者は,兄が複数いる男性は同性愛者になりやすいということを示唆する2006年の研究についてのニュースを覚えているかもしれない。
だが,どうやってこの結論に至ったのだろうか。
この研究論文の執筆者はこの結果について,さまざまな要因が同性愛に及ぼす影響について分析した際に,兄の数だけが統計的に有意な影響を示したと説明している。
姉の数や非生物学的な兄(つまり養子の兄や親の再婚でできた兄)の数は,統計的に有意な影響を及ぼさなかった。
しかし,今まで見てきたように,このことは,さまざまな影響の間に統計的有意差が存在することを保証するものではない。
実際,データを詳しく見てみると,兄を持つ影響と姉を持つ影響との間に統計的有意差は存在しないように見える。
残念なことに,比較するためのp値の計算をするには,論文の中に載っているデータでは足りない。
このように決定的でない結果を誤って解釈することは,どの薬や食事が良いか悪いかを医者が決められないような印象を一般人に与える。
例えば,高いコレステロール値が心臓病と関連していることから,血中コレステロール値を下げるスタチンという薬は非常に人気があるものになっている。
しかし,このコレステロール値と心臓病との関連は,コレステロール値を下げることが患者にとって有益であることを証明するものではない。
そこで,「心臓血管系疾患の病歴がない患者について,スタチンは死亡率を引き下げるのか」という問題に答えるために,何万人もの患者の記録を再分析する一連の大規模メタ分析が5つ行われた。
これらの研究のうち3つが,スタチンが死亡率を引き下げるという結論を出した。
これに対して,残りの2つは,スタチンが役に立つかを示す十分な証拠はないという結論を出した。
これらの論文を読んだ医者・患者・記者はきっと混乱しただろう。
そして,スタチンに関する研究は相互に矛盾していて,決定的なものではないと考えたかもしれない。
だが,信頼区間からも分かるように,これら5つのメタ分析はスタチンの効果について似たような推定をしていた。
相対的なリスクの推定値はみな0,9あたりにあった。
これは,試験期間中にスタチンを服用した患者で死んだ人が10%少なくなったことを意味する。
5つの研究のうち2つの研究で,相対的なリスクが1になるところに信頼区間がかかっていた。
このことは,処置群と統制群の間で違いがないことを示すのだが,この2つの研究の効果量の推定は他の研究とうまく合致するものだった。
ここから研究の間に深刻な不一致があると主張するのは,馬鹿げたことだろう。
2007年、英国の薬局チェーン、ブーツで販売されていた美容液「ナンバーセブン・プロテクト&パーフェクト・ビューティー・セラム」に関する臨床試験が、皮膚のしわを減少させる効果がある可能性を示したとしてBBCで報道され、この美容液は瞬く間に人気商品となった。この試験結果は「ブリティッシュ・ジャーナル・オブ・ダーマトロジー」に掲載されており、試験に参加した被験者のうち43%でしわの改善が見られたことが報告されている。この改善は統計的に有意であるとされたが、この報道や結果の公表は、美容液が科学的に証明された優れた製品であるという印象を多くの人々に与える結果となった。これに対して、同じ美容液で有効成分が入っていないものを使用した統制群では、わずか22%の被験者でしか改善が見られず、この数値は統計的に有意な改善とは見なされなかった。さらに、論文の執筆者自身が論文中で両グループ間の差は統計的に有意ではないと認めざるを得なかったにもかかわらず、この結果は製品の効果を誇張する形で宣伝され続けたのだ。これにより、科学的証明があるかのような誤解を生む結果となり、一般の人々に強い印象を与えた。しかし、このような統計の誤用は決して企業のマーケティング部門に限られた問題ではなく、科学研究全般においても頻繁に見受けられる。例えば、神経科学の分野でも研究者がグループ間の比較に誤った手法を用いることがある。読者の中には、2006年に発表された、兄が複数いる男性は同性愛者になりやすいという研究に関するニュースを覚えている人もいるかもしれない。この研究の論文では、同性愛の発生にさまざまな要因が影響を与えるかどうかが分析された結果、兄の数だけが統計的に有意な影響を示したと報告された。一方で、姉の数や非生物学的な兄(つまり養子の兄や親の再婚でできた兄)の数は統計的に有意な影響を示さなかったとされている。しかし、こうした個々の結果が示されたからといって、必ずしも異なる要因の間に統計的有意差が存在することを保証するわけではない。実際にデータを詳しく検討すると、兄を持つことの影響と姉を持つことの影響との間に統計的有意差がないことが分かる場合もある。しかし、このようなデータの誤解や誤った解釈は、科学的な議論の中ではしばしば見過ごされがちであり、誤った結論が導かれる原因となる。さらに、比較を行うための正確なp値の計算を行うためには、論文に掲載されているデータだけでは不十分であることも多い。こうした誤ったデータ解釈は、結果的に、どの薬や食事が健康にとって有益であるか、あるいは有害であるかを医師が適切に判断することを困難にし、一般の人々に誤解を与えることがある。例えば、心臓病と高いコレステロール値が関連していることは多くの研究で指摘されているため、血中コレステロール値を下げるために用いられるスタチンという薬は非常に人気があるものとなっている。しかし、このコレステロール値と心臓病との関連が、コレステロール値を下げることが患者にとって確実に有益であることを示すものではない。実際、「心臓血管系疾患の病歴がない患者について、スタチンが死亡率を引き下げるのか」という疑問に答えるために、何万人もの患者の記録を基にした一連の大規模メタ分析が行われている。これらのメタ分析の結果、5つの研究のうち3つはスタチンが死亡率を引き下げるという結論を出しているが、残りの2つはスタチンの有効性を示す十分な証拠はないと結論付けている。こうした研究結果を読んだ医者や患者、記者は当然のことながら混乱し、スタチンに関する研究が相互に矛盾しており、決定的な結論が存在しないと考えたかもしれない。しかし、実際には、5つのメタ分析の結果をよく見ると、信頼区間からも分かるように、これらの研究はスタチンの効果について同様の推定をしていたことが明らかになる。相対的なリスクの推定値は、どの研究も0.9前後に集中しており、これは試験期間中にスタチンを服用した患者で死者が10%少なくなったことを意味している。このことからも、たとえ5つの研究のうち2つで相対的なリスクが1になるところに信頼区間がかかっていたとしても、これが処置群と統制群の間で違いがないことを示すと同時に、その効果量の推定値は他の研究と一致していることが分かる。したがって、これらの研究の間に深刻な不一致があると主張するのは不合理であると言える。こうした事例は、科学的な研究結果の解釈や統計的有意性の判断において、慎重な分析と理解が必要であることを示している。統計的有意性は単なる結果の一部に過ぎず、その解釈を誤ると誤った結論や判断が生まれ、一般の人々の認識にも大きな影響を与えることがある。薬や治療法の有効性を評価する際には、個々の研究の結果だけでなく、関連する複数の研究やその信頼性を包括的に評価することが重要であり、単に「有意かどうか」だけで判断を下してはならない。
関連記事