研究の信頼性向上へ学術誌改革推進【ChatGPT統計解析】
研究者はより信頼できる研究を行うため、学術誌に報告ガイドラインの遵守を求めるべきである。例えば、「ネイチャー」は公刊前に著者がチェックリストを埋める仕組みを導入し、再現性向上に寄与しているが、すべての学術誌がこうした基準を強制しているわけではない。ガイドラインを守ることで、研究の透明性と質が向上する。学術誌が掲載基準を厳しくする理由には、権威保持のための競争がある。これにより、驚きや新規性が重視され再現性や否定的結果は軽視されることがある。オープンアクセス誌はこうした制限を緩和するが、評価のバランスには限界がある。論文単位の評価指標は学術誌の影響を抑える試みだが、結果が一般受けするかどうかに依存しやすい。変化を促すためには、研究者は統計知識を向上し、データ分析を計画し、誤解を防ぐ努力が必要だ。科学界は統計的に厳密で再現性のある成果を推進し、教育と出版の文化を変革する必要がある。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
研究者がすべきこと
学術出版
学術誌は,今まで論じてきた問題の多くを解決するために少しずつ前進している。
ランダム化試験のためのCONSORTのような,報告に関するガイドラインは,公刊される論文を再現可能なものにするために必要な情報が何かということをはっきりさせている。
残念ながら,今まで見てきたようにこれらのガイドラインが強制されることは少ない。
私たちは,より厳格な基準を論文の執筆者に守らせるために,学術誌に圧力をかけつづけなくてはならない。
一流の学術誌はこの先頭に立つ必要がある。
「ネイチャー」はそのようにしはじめていて,論文が公刊可能になる前に著者が埋めなくてはならない新たなチェックリストを発表している。
このチェックリストでは,標本の大きさ,検定力の計算,臨床試験登録番号,完全なCONSORTチェックリスト,多重比較をするための調整について報告することを求め,データとソースコードを共有することも求めている。
ただし,停止規則,p値より信頼区間を優先的に用いること,登録済みのプロトコルから臨床試験が乖離した理由について議論することは『ネイチャー』のチェックリストには書かれていない。
また,『ネイチャー』は,査読者から要望があれば,論文について統計学者に相談できるようにしようとしている。
「サイコロジカル・サイエンス」という評判の高い学術誌も,最近,同様の措置をとった。
そして,手法と結果に関する節を論文の総語数の制限から外した上で,除外されたデータ,有意でなかった結果,標本の大きさに関する計算を完全に公開することを求めた。
研究プロトコルの事前登録およびデータ共有は強く推奨されている。
また,この学術誌の編集者は「新しい統計学」(new statistics)という考えを採用している。
この「新しい統計学」では,きりがないp値よりも,信頼区間と効果量の推定が重視される。
しかし,信頼区間は義務づけられているわけではないので,この学術誌で推奨されていることが,心理学者の慣行に影響を及ぼすかは定かではない。
それでもなお,さらに多くの学術誌が同様にすべきだ。
こうしたガイドラインが学術界に受け入れられるにつれ,ガイドラインが強制的に実行されるものとなっていくだろうし,結果として,研究ははるかに信頼できるものになるだろうし,その再現可能性はさらに強いものになるだろう。
また,科学において憂うべき動機付けの構造が存在しているという言い分もある。
この構造によって,科学者に対してやっつけ仕事のような統計手法で小規模の研究を急いで公刊させるような圧力がかかっている。
昇進・終身在職権・昇給・採用はすべて権威ある学術誌に公刊された文献の長いリストに左右される。
だから,有望な結果をできるだけ早く公刊することに強い動機付けが働く。
大学の人事委員会は,自分自身の研究論文を量産する働き過ぎの学者によって構成されているから,個々の文献の質や独自性をくまなく調査することはできない。
そのかわり,近似計算としての権威と量を頼みにしている。
大学ランキングは公刊された文献の数とうまく手に入った研究助成金によって決まるところが非常に大きい。
そして,否定的だったり統計的に有意でなかったりする結果は最高級の学術誌には載らないだろうから,多くの場合,そうした結果を公刊するための準備に骨を折る価値はない。
低めの等級の学術誌で論文を発表することは,他の学者から悪いしるしだと思われるかもしれない。
ところで,権威ある学術誌は投稿の大部分の掲載を拒否することでその権威を保っている。
『ネイチャー』が掲載を許可するのは10%に満たない。
建前としては,紙版の学術誌にページ制限があるので,こうすることになっている。
もっとも,大部分の学術論文はオンラインで読まれているのだが。
学術誌の編集者は,及ぼす影響と惹きつける関心が最大となるような論文はどれかということを判断しようとする。
したがって,最も驚きをもたらすようなものか,最も論争を生むようなものか,最も新規性があるものを選ぽうとするだろう。
今まで見てきたように,これは事実の誇張のほか,結果報告の偏りや公刊の偏りを生み出すもとであり,再現研究や否定的な結果を出すことを強く思いとどまらせる。
オープンアクセスの学術誌「プロス・ワン」や,バイオメド・セントラル社(BioMed Central)の多くの学術誌のように,オンラインでしか発行されない学術誌は,ページ数による限界がないし,明らかにおもしろさが少ない論文でも公刊に関する制限は少ない。
だが,時に『プロス・ワン』はさらに権威のある学術誌ではうまくいかなかった論文の廃品処理場と見なされることがあり,『プロス・ワン』での論文公刊が,雇い主候補を心配させることになるのではないかと恐れる科学者もいる(『プロス・ワン』は単一の学術誌としては最も規模が大きいものでもあり,今では1年で3万本以上の記事を出している。
だから,明らかに汚名のしるしは大きすぎるものではない)。「プロス・バイオロジー」や「BMCバイオロジー」のようにさらに権威の高いオープンアクセスの学術誌は,掲載する論文を非常に絞っていて,統計に関する運だけで決まる宝くじのような状態を同様に助長している。
変化を促進するために,ノーベル賞受賞者であるランディ・シェクマンは2013年に本人と自分の研究室にいる学生が「サイエンス」や『ネイチャー』のような「ぜいたく」な学術誌に論文をこれ以上載せることはないと発表した。
そして,かわりに,大部分の論文を掲載拒否することで人為的な公刊制限を行うことがない,シェクマンが編集をしている「イーライフ」のようなオープンアクセスの学術誌に注力しようとしている。
もちろん,シェクマンとその学生はノーベル賞で守られている。
この賞は,研究成果を載せた学術誌の誌名よりも,ずっと研究成果の価値を示すものだ。
ただ,ノーベル賞を受賞したことがない平凡な研究室にいる平凡な大学院生は,こんな過激な動きで自らのキャリアを傷つけるリスクを負うことはできない。
シェクマンは,ノーベル賞によって守られているため,他の人たちが恐れて主張できないでいることを主張できるのかもしれない。
それは,明確に統計的に有意で適用範囲が広い論文を取り乱したかのようにどんどん出すことが科学を傷つけるという主張だ。
人々は統計的有意性に執着し,たとえ統計を分かっていなくても,有意性を得るためなら何でもする。
時間と金銭を費やして,より大規模でより信頼できる研究を実施するかわりに,履歴書を水増しするために,小規模で検定力の足りない研究を大量に生み出している。
権威ある学術誌の専制政治を代替する選択肢として,論文単位の評価指標(article-level metrics: ALM)というものが提唱されている。
掲載された学術誌の権威で論文を評価するかわりに,その論文自体の影響力を大まかに測ることで評価するのだ。
オンラインのみで発行される学術誌については,論文がどれだけ読まれたか,他の論文でどれだけ引用されたか,そしてTwitterやFacebookでどれだけ頻繁に議論されたかといったことですら簡単に測定することができる。
この評価指標は,インパクトファクター(引用影響度)より優れている。
インパクトファクターは,ある年に公刊されたすべての研究論文によって引用された回数を学術誌ごとに平均したものだ。
これは,権威ある学術誌に載った記事が掲載誌の持つ権威と知名度によって頻繁に引用されるようになるという点で,自己強化的な評価指標になっている。
解決方法はそんなに単純なものではないと思う。
オープンアクセスの学術誌において,論文単位の評価指標は一般大衆の中で人気があるものに報いる形になる(オープンアクセスの論文は誰でも自由に読めるからだ)。
だから,チキンナゲットの不快な組成についての論文の方が,遺伝学の深遠で分かりにくい分野における重大な成果を載せた論文より点数は高くなるだろう。
1つだけで物事を解決する魔法があるわけではない。
学術界の文化は。綿密かつ厳密で統計的に意味があるものに報いるように少しずつ変わっていかなくてはならないだろう。
また、他の科学者の論文を読むときには,以下のような統計分析に関する重要な部分を探し出すようにしよう。
@研究の検定力,あるいは適切な標本の大きさを決めるための他の手段について
A分析において,変数がどのように選ばれたり捨てられたりしたのかについて
B示された統計の結果が論文の結論を支持しているかについて
C有意性検定にともなう効果量の推定や信頼区間が,実質的な重要性を持つ結果となっているかについて
D適切な統計的仮説検定が用いられているか,そして多重比較における補正が必要な場合はどのように補正がなされているかについて
E停止規則の詳細について
練りあげられた研究報告のガイドライン(医学試験におけるCONSORTチェックリストなど)がある分野で慟いているならば,そうしたガイドラインに習熟するようにし,論文を読むときにはガイドラインを念頭に置くようにしよう。
論文の中からガイドラインで要求されている項目が漏れていたとしたら,その論文の結論にどんな影響を与えるのか,そして漏れている詳細を知らずに結果を信頼できるかということを自問するようにしよう。
また,当然のことだが,未来の論文がより良いものになることを保証するために,学術誌の編集者がガイドラインを守らせるように圧力をかけるようにしよう。
標準的な報告ガイドラインがない分野では,結論を評価するのに必要な情報をどの論文もすべて含むようにするためのガイドラインを作るために働くようにしよう。
ここまでの話をまとめると,研究者がすべきことは以下の簡単な4つのステップで表現することができる。
@統計の教科書を読むか,良い統計の授業を取ろう。繰り返し練習しよう。
A自分のデータ分析をあらかじめ慎重に計画しよう。ここまでで述べてきたような誤解や間違いを避けよう。データを集めはじめる前に統計学者に話をしよう。
Bもし,p値に対する単純な誤解のようにありふれた間違いを科学に関する文献で見つけたら,犯人の頭を統計学の教科書で殴りつけよう。これは治療に役立つ。
C科学に関する教育と科学に関する出版の変化を推し進めるようにしよう。これは私たちの研究だ。うまくやろう。
研究者がすべきことは、多岐にわたり、特に学術出版においてその重要性が際立っている。現代の学術誌は、研究の透明性と再現可能性を高めるために様々な努力を続けている。例えば、ランダム化試験に関する報告のガイドラインとして広く知られるCONSORTは、公刊される論文が再現可能であるために必要な情報を明確にしている。しかし、こうしたガイドラインが実際に強制されることはまだ少なく、多くの学術誌がそれに対応しきれていないのが現状だ。そのため、研究者はこれらのガイドラインを学術誌に守らせるよう圧力をかけ続けることが求められる。一流の学術誌は、この変革の先頭に立つべきであり、「ネイチャー」はその一例だ。ネイチャーは、著者が公刊前にチェックリストを埋める新たな仕組みを導入し、そのチェックリストには標本の大きさや検定力の計算、臨床試験登録番号、CONSORTチェックリスト、多重比較の調整の報告、そしてデータとソースコードの共有が求められている。しかし、「ネイチャー」のチェックリストには、停止規則や信頼区間の優先使用、臨床試験の登録済みプロトコルからの乖離についての議論などは含まれていない。また、「ネイチャー」は査読者が要望すれば論文について統計学者に相談できるようにする取り組みを始めている。これに対し、「サイコロジカル・サイエンス」という評判の高い学術誌も同様の措置をとり、手法と結果の節を論文の総語数の制限から外し、除外されたデータ、有意でなかった結果、標本の大きさに関する計算を完全に公開することを求めている。また、研究プロトコルの事前登録およびデータ共有を強く推奨し、「新しい統計学」として信頼区間と効果量の推定を重視するアプローチを採用している。しかし、信頼区間の使用は義務ではないため、この措置が実際に研究者の慣行にどれだけ影響を与えるかは不明である。それでもなお、より多くの学術誌が同様の基準を導入することが期待される。こうしたガイドラインが広く受け入れられることで、それが実施において強制力を持つようになり、結果的に研究はより信頼できるものとなり、その再現性も向上するだろう。科学の動機付け構造においては問題もある。多くの研究者は昇進や終身在職権、採用のために権威ある学術誌に論文を発表することを目指し、有望な結果を急いで公刊しようとする動機付けが働いている。これは、学術誌の権威と掲載数が大学ランキングや研究助成金の獲得に大きく影響するためである。学術誌の編集者は論文が及ぼす影響と関心を最大化するため、最も驚きや新規性のあるものを選びがちであり、これが結果報告の偏りや再現研究の少なさを引き起こす一因となっている。オープンアクセス誌のような新しい出版モデルはこうした問題をある程度緩和するものの、これにも限界がある。例えば、「プロス・ワン」やBioMed Central社の多くの学術誌はオンラインでのみ発行され、ページ数の制限がなく、内容の面白さも特に求められない。しかし、プロス・ワンは時に権威ある学術誌でうまくいかなかった論文の「廃品処理場」と見なされることがあり、この学術誌で論文を発表すると採用候補者が心配されることもある。とはいえ、プロス・ワンは年間3万本以上の論文を発表しており、その影響力が無視できないものであることも事実だ。オープンアクセス誌である「プロス・バイオロジー」や「BMCバイオロジー」のような雑誌は掲載基準を厳しくし、権威を保つことで、掲載の選択を宝くじのような運に頼る状況を助長する面もある。変化を促すためにノーベル賞受賞者のランディ・シェクマンは2013年、自身と研究室の学生が「サイエンス」や「ネイチャー」のような権威ある雑誌に論文を載せない方針を発表し、代わりに自身が編集を務める「イーライフ」のようなオープンアクセス誌に注力することを選んだ。シェクマンはノーベル賞受賞という後ろ盾があるため、このような過激な決断をできたが、普通の研究者はそのリスクを負うことは難しい。権威ある学術誌が学術界で支配的な地位を持っているため、論文が掲載されることで研究者の業績が評価され、結果として小規模で検定力が低い研究が乱発される傾向がある。こうした問題を解決する手段として、論文単位の評価指標(ALM)の導入が提案されている。これは、学術誌の影響力による評価から論文自体の影響力を測定し、どれだけ引用され、読まれ、SNSで議論されたかを指標として使用する。インパクトファクターのように学術誌全体の平均引用回数ではなく、個々の論文の影響を評価する方法だ。しかし、ALMにも限界があり、オープンアクセスの論文が一般受けするトピックである場合に人気が高くなる可能性がある。例えば、日常的なトピックの論文は深遠な遺伝学の成果を報告する論文よりも評価が高くなることもある。学術界の文化は、徐々に信頼性と統計的厳密性を重視する方向へ変わるべきであり、教育と出版の改革を推進する必要がある。研究者は統計の基本を学び、データ分析を事前に計画し、誤解を避けるために統計学者と協力するべきだ。また、研究報告ガイドラインがある分野ではそのガイドラインを理解し、論文を読む際に必要な項目が漏れていないかを確認し、漏れている場合はその論文の信頼性を再評価することが求められる。標準的な報告ガイドラインがない分野では、新たなガイドライン作成に寄与することで、信頼できる研究報告の基盤を築くことができる。研究者がすべきことは、統計の基礎を学び、研究計画を慎重に立て、誤りを避け、科学の教育と出版を変えていくことである。これにより、学術界全体がより透明で信頼性のある成果を生み出せるようになり、科学の進歩に貢献することができる。
関連記事