科学を止めるな!データ共有が鍵を握る真実【ChatGPT統計解析】
科学者がデータを隠す問題は、外部の監視によって発見されやすいが、査読者には十分な時間がなく、詳細な誤りを見逃すことが多い。そのため、学術誌はデータ共有を推奨しているが、実際には多くの研究者がデータを提供しない。アムステルダム大学のヴィヒエルツらが行った調査では、データを共有しない著者の論文には統計的誤りが多く、結果が有意であることが誤りによる場合もあった。データ共有を阻む理由には、競争心や時間的な制約があり、商業的利益やプライバシーの問題も絡む。特に医療データや企業が所有するデータは、共有が難しいことが多い。また、データの形式や保存方法の問題、共有コストも障害となっている。科学の進歩のためにはデータ共有が重要だが、現実には多くの困難が伴っている。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
データを隠すこと
科学者が犯しがちな誤りを発見する最高の手段は,外部からの監視をいくぶんか用いることだと述べてきた。
査読者はこうした監視の目を多少はもたらす。
しかし,査読者にはデータを広範囲にわたって再分析したり,コードの誤字を見る時間はない。
査読者は,方法論の筋が通っているかを確認するだけなのだ。時には明らかな誤りを発見することもあるが,微妙な問題は通常見逃される。
このことは、多くの学術誌や専門学会が研究者にデータを他の科学者の要望に応じて提供できるように求める理由の1つだ。
完全なデータセットはたいてい学術誌のページに印刷するには多すぎるし,結果がオンラインで公開されることもほとんどない。
抜粋された結果が公表されることはもっと多いものの,最高ランクの学術誌に掲載された論文のうち,完全なデータがオンラインで手に入るのは10%に満たない。
かわりに,論文の著者は結果を報告した上で,もしコピーを求められれば,完全なデータを他の科学者に送るようにする。
もしかしたら。元の研究をした科学者が見落とした誤りやパターンについて,他の科学者が気づくかもしれない。
もしかしたら,他の科学者がそのデータを使って関連するテーマについて研究できるかもしれない。あるいは,理論的にはそうなるのだろう。
監禁されたデータ
2005年,アムステルダム大学のイェルテ・ヴイヒエルツは同僚とともに,アメリカ心理学会のいくつかの重要な学術誌に出ている最近の論文をすべて分析しようと決めた。
それらの論文で使われている統計手法について知るためにそうしたのだ。
これはヴィヒエルツらがアメリカ心理学会を選んだ理由の1つでもあるのだが,同学会は,論文の著者に対して,著者の主張を検証しようとする他の心理学者にデータを共有することを求めている。
しかし,6か月後,ヴイヒエルツたちがデータを求めた249個の研究のうち,64個しかデータを受け取れなかった。4分の3近くの研究で,著者はデータをまったく送ってこなかったのだ。
もちろん,科学者は忙しい人種だから,データセットをまとめて,各々の変数が何を意味していてどう測られたかといったことを記述した文書を作る時間がなかっただけなのかもしれない。
あるいは,データを送らなかった動機は保身だったのかもしれない。
つまり,主張していたほどデータが決定的なものではなかったのかもしれない。
ヴィヒエルツとその同僚は,これを調べることに決めた。
首尾一貫しない統計の結果,統計的検定の誤用,普通の誤字といった論文を読むことで見つけられるような一般的な誤りを探すために,すべての研究を調査した。
少なくとも半分の論文で誤りが1つはあった。
たいていは小さな誤りだったが, 15%は,誤りがあるために統計的に有意になっているだけの「有意」な結果を少なくとも1つ報告していた。
次に,こうした誤りとデータを共有したがらないこととの関係について調べたところ,両者の間には明らかな関係があった。
データを共有することを拒絶した著者は,論文の中で誤りを犯しがちで,統計的な証拠が弱くなりがちな傾向があった。ほとんどの著者がデータを共有することを拒否したから,ヴイヒエルツは統計的な誤りを深く掘り下げることができなかった。ただ,もしかしたらより多くの誤りが潜んでいるかもしれない。
このことは,結果に欠陥があったり根拠の弱いものであったりすることを論文の著者が知っていたためにデータを隠したという証明には明らかになりえない。
交絡因子の候補はたくさんある。そして,相関関係は因果関係を含意しない。だが,相関関係は,示唆的に眉を揺らして,こっそりジェスチャーをしつつ,声を出さずに囗だけを動かして「あそこを見ろ」と言うのだ。
そして,驚くほど誤りの比率が高いことは,なぜデータを共有すべきかをはっきり示してくれる。
多くの誤りは,公刊された論文の中では明らかにならず,誰かがゼロから元々のデータを再分析するときにのみ発見されるのだ。
共有への障害
いくつかの分野ではデータの共有を促進しているものの,データの共有はいつもスプレッドシートを1つオンラインに投稿するように簡単なものだとはかぎらない。
簡単に共有できないものの例として,何千人もの科学者が貢献した遺伝子シークエンスデータペース,タンパク質構造データバンク,天体観測データペース,地球観測コレクションといったものがある。
とはいえ,医療データが,患者個人を特定できる情報をすべて慎重に取り除く必要があるため、特に扱いにくいデータになっている。
そして製薬会社は自らのデータに所有権を主張し,データを共有することに強く反対している。
事例として,欧州医薬品庁(European Medicines Agency: EMA)のことを考えてみよう。
2007年にノルディック・コクラン・センターの研究者が2種類の減量薬についてのデータを欧州医薬品庁に求めた。
同センターの研究者はこれらの薬の有効性について系統的再調査をしているところだった。
そして,欧州医薬品庁がヨーロッパ市場に薬を導入することを認可する機関であるため,製薬会社が登録したまだ公開されていないかもしれない試験データを保持しているはずだということを同センターの研究者は知っていたのだ。
しかし,欧州医薬品庁は,試験の計画方法と商業的計画を明らかにすることは「個人または企業の商業的利益に不当な損害を与える」可能性があるという理由で,データを開示することを拒否した。
さらに,データを隠すことが患者の害になるという主張を認めなかった。
3年半の官僚的な議論を経て,そして,すべての研究報告を見直して商業的秘密がないことが確認された後に,欧州オンブズマンがついに欧州医薬品庁に文書を公表するように命令した。
その間に,薬の1つは,深刻な精神医学上の問題を含む副作用があったため,市場から撤退していた。
学者も,データを秘密にしておくために,似たような理屈で正当化を図っている。
学者は商業的利益については気にしていない一方で,競合する科学者を気にしている。
データセットを共有すれば,学者が何か月もの時間と何千ドルもの資金を使って集めたデータをただで手に入れる者が出てきて,次の発見をそのただ飯食らいに出し抜かれることになるかもしれない。
このため,いくつかの分野ではデータがもはや無用になってはじめて,つまりそのデータについて可能なかぎり多くの論文を公刊したところで,データを共有することを考えることが普通に行われている。
学術界では,権威ある学術誌で多くの論文を公刊することが出世につながるため,出し抜かれる恐怖が大きな障害になっている。
経験の浅い科学者は,他人に公刊を出し抜かれるためだけに,1つのプロジェクトで働いた6か月を無為にすることに耐えられない。
バスケットボールと違って,アシストをしたことに関して学術的な栄誉はないのだ。
もし共著者となる栄誉がないのだとしたら,なぜ他人のためにわざわざデータを共有しなくてはならないのだろうか。
こうした考えは,科学の素早い進歩という大きな目的には合わないが,活動中の科学者にとってはやむをえないものなのだ。
プライバシー,商業上の問題,学問における競争のほかに,データ共有を妨げる実務的な問題がいくつかある。
データはさまざまな科学器具や分析パッケージで作成された独特の形式で保存されることがしばしばある。
さらに表計算ソフトはプロプライエタリだったり互換性がなかったりする形式でデータを保存する(ExcelのスプレッドシートやSPSSのデータが今から30年後も読める保証はないし,別のソフトウェアを使っている同僚が今読める保証すらない)。
いずれにせよすべてのデータが簡単にスプレッドシートとしてアップロードできるわけではない。何時間もの動画で記録がなされている動物行動学の研究や何時間もの対面調査を論拠としている心理学の研究はどうするのか。
たとえ何百時間もの動画を保管するのに十分な保存領域があったとしても,誰がそのコストを負担するというのだろうか。
そして誰がわざわざそれを見るというのだろうか。
データを公開するには,研究者がデータフォーマットと測定手法(機器の設定はどんなものを使ったのか。較正はどう行われたのかなど)について説明をすることが必要となる。
だが,研究室の組織というものは往々にして行き当たりばったりなものだから,研究者にはスプレッドシートや手書きのメモを取りまとめる時間がないかもしれない。
何ギガバイトにもなる生のデータを共有する方法を持っていない研究者もいるかもしれない。
科学者がデータを隠すことに関して、これは科学の透明性や進展を妨げる大きな問題となっています。データを隠すことで、他の科学者が研究結果を再現したり、独自の分析を行うことが難しくなり、最終的には科学の信頼性が損なわれる危険性があります。この問題の根本的な解決策の1つとして提唱されているのが、外部からの監視を強化するというアプローチです。外部の監視によって、研究者が意図的または無意識的に犯した誤りを発見しやすくなるためです。しかし、外部からの監視にも限界があります。たとえば、査読者が論文を精査する際、彼らには膨大なデータやコードを詳細に確認する時間がほとんどありません。査読者が論文の方法論に一貫性があるかどうかを確認する程度にとどまってしまい、細かいミスや誤字などは見過ごされてしまうことが多いのです。その結果、査読システムでは微妙な誤りやデータの不備を発見することが難しく、誤った結果が公表されるリスクが高まります。これが、学術誌や学会が研究者にデータの共有を求める理由の1つです。データの共有が促進されれば、他の科学者がそのデータを基に独自の分析を行い、結果の妥当性を確認することができるからです。また、共有されたデータが新しい発見につながる可能性もあります。例えば、元の研究者が見逃していたパターンや誤りを、別の科学者が発見することもあり得ます。とはいえ、実際にデータが共有されるケースは非常に少ないのが現状です。多くの場合、完全なデータセットは学術誌に掲載されるにはあまりにも膨大で、オンラインでさえ公開されることはほとんどありません。その結果、論文には抜粋された結果のみが掲載され、完全なデータは他の科学者が個別に要求しなければ手に入らない状況です。さらに、最も権威のある学術誌に掲載された論文であっても、完全なデータがオンラインで公開される割合はわずか10%以下です。つまり、多くの研究者は、自らのデータを広く公開することに消極的であり、データ共有の文化はまだ十分に根付いていないのです。この問題を浮き彫りにした研究の1つが、アムステルダム大学のイェルテ・ヴィヒエルツらによるものです。2005年、彼らはアメリカ心理学会の学術誌に掲載された論文を対象に、データ共有の実態を調査しました。ヴィヒエルツらは、心理学における統計手法の利用状況を分析するために、249件の研究からデータを求めました。しかし、実際にデータを提供されたのはわずか64件、つまり全体の約4分の1に過ぎませんでした。この調査は、科学者がデータを共有しないことの背景にある要因を明らかにしました。もちろん、科学者が忙しいことや、データを整理する時間がないといった理由も考えられます。しかし、より深刻な問題として、データを共有しない理由が保身にある可能性も指摘されています。つまり、研究者が自らのデータに不確実性や誤りが含まれていることを認識しており、そのためにデータを公開したくないという動機があるかもしれないということです。ヴィヒエルツらは、データ共有に消極的な研究者の論文に誤りが多いことを突き止めました。彼らはすべての研究を詳細に調査し、統計的な誤りやデータの不一致を探しました。その結果、少なくとも半数の論文に何らかの誤りが含まれていることが判明しました。特に深刻だったのは、15%の論文が、誤りのために統計的に有意な結果を報告していたことです。さらに、データ共有を拒否した研究者ほど、統計的な証拠が弱い傾向があることも明らかになりました。このことは、データの透明性がいかに重要であるかを示しています。データを隠すことで、研究の信頼性が低下し、結果的に科学の進展が妨げられるのです。とはいえ、データ共有の実践には多くの障害が存在します。例えば、医療データは個人情報保護の観点から、患者を特定できる情報を慎重に削除する必要があるため、共有が難しい場合があります。また、製薬会社などの企業は、商業的利益を守るためにデータ共有に強く反対することが多いです。実際の事例として、2007年にノルディック・コクラン・センターの研究者が欧州医薬品庁(EMA)に対し、2種類の減量薬に関するデータを求めた際、EMAは商業的利益に悪影響を与える可能性があるという理由でデータ開示を拒否しました。しかし、その後、欧州オンブズマンの介入により、データが公開されることになりましたが、その間に問題の薬の1つは市場から撤退していました。このように、商業的な理由や規制の複雑さがデータ共有を妨げる要因となっているのです。さらに、学者の間でも競争が激しく、データ共有が進まない理由の1つです。特に、研究者が何か月もかけて集めたデータを他者に利用されることで、次の発見を奪われる恐れがあるため、多くの研究者はデータ共有に消極的です。学術界では、権威ある学術誌に多くの論文を発表することがキャリアの成功に直結するため、他者に成果を先取りされることを恐れる気持ちが強いのです。そのため、データの共有は、研究が一段落し、そのデータから十分な成果を得たときに初めて考えられるのが一般的です。こうした状況は、科学の進展にとって理想的ではありませんが、現実には研究者が直面している競争の厳しさを反映しています。加えて、データ共有には実務的な問題もあります。多くのデータは特定の科学機器や分析ソフトウェアで作成されており、その形式は標準化されていないことが多いため、他の研究者が利用しにくいことがあります。たとえば、ExcelやSPSSといったソフトウェアで保存されたデータは、他のソフトウェアで読み込むことができなかったり、将来的に互換性がなくなる可能性があります。また、動物行動学や心理学の研究では、膨大な量のビデオデータや対面調査の記録が含まれており、それを保存し、他者と共有するためには膨大なコストと時間がかかります。さらに、共有されたデータが果たして有効に活用されるかどうかも不明です。例えば、数百時間に及ぶビデオデータを解析するためには、そのデータを精査するための時間やリソースが必要ですが、誰がそのコストを負担するのかは不明です。こうした理由から、データ共有が進まない状況が続いているのです。それでもなお、科学の進歩のためにはデータの共有が不可欠です。多くの誤りは、公表された論文の中では明らかにならず、誰かが元のデータを再分析したときにのみ発見されるものです。データが公開されれば、多くの科学者がそのデータを活用し、新しい知見を得たり、既存の研究結果の信頼性を検証することができるでしょう。
関連記事