事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】

事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】

事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】
事実の統計的誇張は、小規模な試験や検定力が不足している研究においてよく見られる現象です。例えば、新薬フィクシトルが症状を20%軽減するとしても、試験の規模が小さいと結果がばらつきやすく、効果が過剰に誇張されることがあります。これは「事実の誇張」や「勝者の呪い」として知られ、薬理学や心理学、遺伝学などで特に顕著です。学術誌が刺激的な結果を優先する傾向もこれを助長し、初期研究の効果が後続研究より極端に大きくなる傾向があります。例えば、カナザワの研究では「美しい両親は娘を持つ確率が高い」と主張されましたが、その効果量は過大評価され、統計的誤りも見つかりました。小規模なデータでは小さな差を検出するには不十分で、誤って誇張された結果が発表されるリスクがあります。この問題は事前の検定力分析である程度防げるものの、現状では多くの分野で見過ごされています。

事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】

 

 

事実の統計的誇張

 

フィクシトルが実際は偽薬よりも症状を20%減らすとしよう。

 

そして,そのことを調べるために実施している試験は,信頼をもってこの差を検出するために十分な検定力がないものとしよう。

 

小規模の試験では,幅広い結果が出る傾向があることが知られている。

 

普通より短いかぜをひいている運の良い患者を10人得ることは簡単だ。

 

しかし,全員が普通より短いかぜをひいているような1万人を得ることは,ずっと難しい。

 

この試験を何回も実施することを想像してみよう。

 

時には,運の悪い患者をつかまえ,薬がもたらす統計的に有意な改善に気づかない。

 

時には,平均的な患者をつかまえ,実験群で症状を20%減らしたものの,統計的に有意な向上と言えるほどの十分な数のデータがなかったために,無視してしまう。

 

時には,運の良い患者をつかまえ,症状を20%よりずっと大きく減らし,試験をやめて,「見てくれ! 効果があるぞ!」と述べる。

 

フィクシトルに効果があるという結論を出したことは正しい。

 

しかし,研究の検定力が足りないために,効果量が誇張されてしまっている。

 

こうした現象は,事実の誇張(truth inflation),あるいはM型の過誤(Mはmagnitude〔重大性〕の頭文字)や勝者の呪い(winners curse)として知られている。

 

これは,多くの研究者が似たような実験を行い,最も刺激的な結果を発表しようと競争している領域で起きる。

 

例えば,薬理学的試験,疫学研究,遺伝子関連解析(「遺伝子Aが状況Bを引き起こす」),心理学研究のような領域だ。

 

さらに,医学分野の文献で最も引用されている論文のいくつかにおいても,この問題が発生している。

 

遺伝学のように展開の速い分野において,最も初期に公刊された結果はしばしば最も極端なものになる。

 

なぜかと言えば,学術誌側が,新しくて刺激的な結果を公刊したがっているためだ。

 

後から行われる研究での効果はずっと小さい傾向にある。

 

『ネイチャー』や『サイエンス』のような最高ランクの学術誌が革新的な結果を有する研究の公刊を好んでいることについても注目してみよう。

 

革新的な結果を有する研究とは,先行研究がほとんどない新規性のある分野で大きな効果量があるような研究のことを指す。

 

これは,慢性病のような事実の誇張を生み出す完璧な組み合わせだ。

 

学術誌のインパクトファクター(学術誌の卓越性と重要性を示す大まかな指標)が効果量を過剰に見積もっている研究の割合と相関していることを示唆する証拠がある。

 

あまり刺激的でない結果を生み出すような研究の方が,事実に近いのだが,一流の学術誌の編集者にとってはつまらなく感じられるのだ。

 

ある研究が,標本の大きさが相対的に小さいのに,大きな効果を検出したと主張していたとしよう。

 

このとき,最初の反応が「なんかどえらいことを発見したんだなあ!」となってはならない。

 

むしろ,「うわっ‥‥‥この研究の検定力,低すぎ……」となるべきだ。

 

 

1つ例を挙げてみよう。

 

サトシ・カナザワは. 2005年から性比をテーマとするひと続きの論文を発表し,ついには「美しい両親は娘を持つことが多い」というところまで至った。

 

引き続いて,カナザワは自著で,このことと,他に自身が発見した政治的に正しくない事実を論じた。

 

こうした研究は,特に,報告された効果量が大きかったために,当時マスメディアではとても人気があった。

 

カナザワは,最も美しい両親の子どもで女であるのは52%であるのに対し,最も魅力的でない両親の子どもで娘であるのは44%しかいないと主張していた。

 

生物学者にとっては,もしかしたら1%とか2%といった程度の小さな効果でも,もっともらしいものなのだろう。

 

トリヴァース=ウィラード仮説によれば,両親が男児よりも女児に有益な特性を持っている場合,男児よりも女児を多く持つようになることが示唆される(逆に男児に有益な特性ならば,男児を多く持つようになる)。

 

もし女児は男児よりも美しさから得る利益が大きいと想定するのならば,この仮説から,美しい両親は平均すればわずかに娘を多く持つことが予想される。

 

しかし,カナザワが主張した効果量は非常に大きなものだった。

 

そして,後にカナザワが統計分析でいくつかの誤りを犯していたことが分かった。

 

修正がなされた後の回帰分析によれば,データ上,魅力的な両親は確かに4.7%娘を持ちやすかったのだが,その信頼区間は13.3%娘を持ちやすいというところから. 3.9%持ちにくいところまで,大きく広がっていた。

 

カナザワの研究は3000近くの親のデータを用いていたが,結果は統計的に有意ではなかった。

 

小さな違いを確実に検出するためには,膨大な量のデータが必要になる。

 

より現実昧がある効果量として,例えば0.3%を仮定してみよう。3000の親のデータがあっても,観察された0.3%の違いは偶然と区別するには小さすぎる。

 

この場合,単純に5%の確率で,統計的に有意な結果を運良く手に入れることがある。

 

ここで有意となった結果は本来の効果を少なくとも20倍誇張する結果になる。

 

そして,これらのうち40%が,女児でなく男児の方が生まれやすいという大胆な過大評価となる。

 

だから,たとえカナザワが完璧な統計分析をしたとしても,「技術者は多くの息子を持ち,看護師は多くの娘を持つ」といった論文を出せる幸運に時々出くわすことがあっただろう。

 

そして,実在の非常に小さな効果を大胆に過大評価した形の結果が得られただろう。

 

カナザワが実施した研究は,あらかじめ予期される量の効果を検出することができないほど,小規模なものだった。

 

事前に検定力分析をしていれば,このことが分かったことだろう。

 

 

事実の統計的誇張は、研究の規模が小さい場合や検定力が不十分な状況でしばしば発生し、その結果として効果が過大評価されることがあります。これは「事実の誇張(truth inflation)」や「勝者の呪い(winners curse)」として知られ、特に薬理学的試験や心理学研究、遺伝子関連解析など、競争が激しく、刺激的な結果が求められる分野で顕著に見られる現象です。例えば、新薬フィクシトルが症状を20%軽減する効果を持つと仮定しても、試験の規模が小さければ、運よく効果が極端に大きく見える結果が得られることがあります。小規模な試験では結果がばらつきやすく、偶然の要素が強く影響します。例えば、比較的軽症の患者が選ばれれば効果が大きく見え、重症の患者が含まれれば効果が低く見えることがあります。こうした状況では、統計的に有意な結果が偶然得られる可能性が高まり、その効果が過大評価される危険性が高まります。これは検定力が低い試験では特に問題となり、事実上効果が小さいにもかかわらず、それが大きな効果として報告されることがあります。さらに、学術界やメディアの傾向がこの問題を助長しています。学術誌は新規性があり、刺激的で、大きな効果量を示す研究を好む傾向があります。そのため、初期段階の研究が報告される際には、実際よりも効果が大きく見える場合があります。この傾向は遺伝学や疫学など、発展が早い分野で特に顕著です。『ネイチャー』や『サイエンス』のような高インパクトな学術誌は、先行研究が少なく、大きな効果量を報告する革新的な研究を好むため、この問題をさらに悪化させます。その結果、後続研究では効果が小さくなることがよく見られます。これを裏付ける証拠として、学術誌のインパクトファクターが高いほど、効果量が過剰に見積もられる研究の割合が増加することが指摘されています。刺激的でない結果を生む研究の方が事実に近いことが多いものの、これらは一流誌には採用されにくくなります。この現象は小規模試験の検出力不足に由来します。たとえば、標本サイズが小さい試験で偶然得られた大きな効果量が注目されると、実際の効果を大きく誤解させることになります。このような誇張された効果量は、事実よりも大きな影響を持つように見え、誤解を招く結果となります。たとえば、カナザワの研究では「美しい両親は娘を持つ確率が高い」という結果が報告されましたが、その効果量は過大評価されていました。具体的には、魅力的な両親は子どもが娘である確率が4.7%高いと主張されましたが、その信頼区間は広範囲で、統計的に有意とは言えないものでした。この研究では3000件の親のデータを使用しましたが、それでも小さな効果を正確に検出するには不十分でした。もし仮に効果が0.3%程度であった場合、偶然の影響を排除するにはさらに大規模なデータが必要だったでしょう。さらに、このような小規模試験で得られる誇張された結果が、他の研究者によって繰り返し追認される可能性が低いことも問題です。追試で効果が再現されない場合、最初の研究結果は誤りであったと見なされる可能性がありますが、初期の誇張された結果が広く受け入れられると、それを覆すには非常に多くの努力が必要です。これらの問題を防ぐには、事前に検定力分析を実施し、十分な標本サイズを確保することが重要です。また、研究結果を解釈する際には、過大評価のリスクを考慮し、効果量が実際よりも大きく見える可能性を常に念頭に置くべきです。学術誌や研究者も、結果の刺激性よりも信頼性を重視する姿勢を持つべきです。特に初期段階の研究では、効果量の正確性を確保するために、より慎重なアプローチが必要です。さらに、研究の透明性を高めることも重要です。データと分析手法を公開することで、他の研究者が結果を再検証できるようにすることが推奨されます。このような取り組みが広がることで、事実の誇張を減らし、科学的な信頼性を向上させることが期待されます。

 

事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

 

事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】

事実の誇張と勝者の呪い:小規模試験の落とし穴【ChatGPT統計解析】