統計的データ分析は科学の基礎|【統計学・統計解析コラム】
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計的データ分析は科学の基礎である
気に入った医学誌の中からランダムに1ページを開けば、t検定、p値、比例ハザードモデル、傾向スコア、ロジスティック回帰、最小2乗法、信頼区間といった統計に圧倒されるであろう。
統計学者は、最も複雑なデータセットの中から秩序と意味を見出すという巨大な力を持つ道具立てを科学者に提供し、科学者は、大喜びでこうした道具立てを受け入れてきた。
しかし、科学者は、統計教育を受け入れてこなかった。
そして、科学に関する大学学部課程の多くで、統計の訓練は全く求められていない。
1980年代以降、研究者は、評判の高い査読付きの科学文献に、多数の統計に関する誤謬と誤解があることを示してきた。
また、多くの科学論文がこうした誤りにはまっていることを見出してきた。
多くの研究が、検定力の不足によって、探求しようとしていることが発見できなくなっている。
多重比較とp値の解釈の誤りによって、多数の偽陽性が引き起こされている。
融通無碍なデータ分析によって、何も存在しないところに相関関係を発見することが簡単になってしまっている。
そして、不適切なモデルを選ぶことによって、重要な結果が歪んでいる。
ほとんどの誤りは、特別な統計の訓練を受けていないことが多い査読者や編集者によって見逃されている。
投稿を吟味する統計学者を雇う学術誌はほとんどないし、正確に評価するために必要な統計の詳細を十分に書いている論文はほとんどないからだ。
問題は不正が行われていることではない。
問題は貧弱な統計教育だ。
これは、研究上の発見で公刊されたもののほとんどが誤っているかもしれないと一部の科学者が結論づけるのに十分なほど、貧弱なのだ。
一流の学術誌には、論評記事や編集者からの論説が定期的に出ていて、統計に関する基準をより高いものにし、さらに精査するように求めている。
だが、こうした懇願に応じている科学者はほとんどおらず、学術誌が定めた標準はしばしば無視される。
そして、統計に関するアドバイスは、統計の教科書だけでなく、さまざまな学術誌における論評記事や科学者には理解しにくい論文にまき散らされている。
このため、ほとんどの科学者は、統計の実践を簡単に改善できないのだ。
現代の研究の方法論が複雑であることは、統計の幅広い訓練を受けていない科学者が、自らの専門分野で公表された研究のほとんどを理解できない可能性があるという事態をもたらす。
例として、医学分野を見てみよう。
標準的な統計の入門講義を1つしか受けていない医師の知識は、New England Journal of Medicineに掲載された研究論文のうち、およそ5分の1しか完全に理解できない程度のものだ。
ほとんどの医者はそれよりも受けている統計の訓練が少ない。
多くの医学研修生は、必修科目として統計を学ぶのではなく、輪読会や短期講習で非公式に統計を学ぶ。
医学生に教えられている内容がしっかりと理解されないことはしばしばある。
医学分野でよく使われている統計手法に関するテストに対する医学研修生の正答率は平均して50%以下だった。
研究に関する訓練を受けている医学校の教授陣ですら、正答率は75%に満たなかった。
状況は非常によろしくない。
統計知識に関する調査を作成した人ですら、調査質問を練り上げるのに不可欠な統計知識を欠いているぐらいなのだ。
医学研修生に対して実施された調査には、p値の定義を問うという多肢選択式問題で、4つの誤った定義しか選択肢にないという問題が含まれていたのだ。
ただ、多少は大目に見ることができるかもしれない。
多くの統計の入門書も同様に、この基本的な概念の定義があやしかったり間違っていたりするからだ。
科学研究の計画を立てる人が十分に注意して統計を用いなければ、何年もの作業と何千ドルもの資金を費やして、答えようとした問題に答えられない可能性すらある。
関連記事