データを隠すこと【統計解析講義応用】

データを隠すこと【統計解析講義応用】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

データを隠すこと|【統計学・統計解析講義応用】

データを隠すこと【統計解析講義応用】


目次  データを隠すこと【統計解析講義応用】

 

 

データを隠すこと

 

科学者が犯しがちな誤りを発見する最高の手段は,外部からの監視をいくぶんか用いることだと述べてきた。

 

査読者はこうした監視の目を多少はもたらす。

 

しかし,査読者にはデータを広範囲にわたって再分析したり,コードの誤字を見る時間はない。

 

査読者は,方法論の筋が通っているかを確認するだけなのだ。時には明らかな誤りを発見することもあるが,微妙な問題は通常見逃される。

 

このことは、多くの学術誌や専門学会が研究者にデータを他の科学者の要望に応じて提供できるように求める理由の1つだ。

 

完全なデータセットはたいてい学術誌のページに印刷するには多すぎるし,結果がオンラインで公開されることもほとんどない。

 

抜粋された結果が公表されることはもっと多いものの,最高ランクの学術誌に掲載された論文のうち,完全なデータがオンラインで手に入るのは10%に満たない。

 

かわりに,論文の著者は結果を報告した上で,もしコピーを求められれば,完全なデータを他の科学者に送るようにする。

 

もしかしたら。元の研究をした科学者が見落とした誤りやパターンについて,他の科学者が気づくかもしれない。

 

もしかしたら,他の科学者がそのデータを使って関連するテーマについて研究できるかもしれない。あるいは,理論的にはそうなるのだろう。

 

 

監禁されたデータ

 

2005年,アムステルダム大学のイェルテ・ヴイヒエルツは同僚とともに,アメリカ心理学会のいくつかの重要な学術誌に出ている最近の論文をすべて分析しようと決めた。

 

それらの論文で使われている統計手法について知るためにそうしたのだ。

 

これはヴィヒエルツらがアメリカ心理学会を選んだ理由の1つでもあるのだが,同学会は,論文の著者に対して,著者の主張を検証しようとする他の心理学者にデータを共有することを求めている。

 

しかし,6か月後,ヴイヒエルツたちがデータを求めた249個の研究のうち,64個しかデータを受け取れなかった。4分の3近くの研究で,著者はデータをまったく送ってこなかったのだ。

 

もちろん,科学者は忙しい人種だから,データセットをまとめて,各々の変数が何を意味していてどう測られたかといったことを記述した文書を作る時間がなかっただけなのかもしれない。

 

あるいは,データを送らなかった動機は保身だったのかもしれない。

 

つまり,主張していたほどデータが決定的なものではなかったのかもしれない。

 

ヴィヒエルツとその同僚は,これを調べることに決めた。

 

首尾一貫しない統計の結果,統計的検定の誤用,普通の誤字といった論文を読むことで見つけられるような一般的な誤りを探すために,すべての研究を調査した。

 

少なくとも半分の論文で誤りが1つはあった。

 

たいていは小さな誤りだったが, 15%は,誤りがあるために統計的に有意になっているだけの「有意」な結果を少なくとも1つ報告していた。

 

次に,こうした誤りとデータを共有したがらないこととの関係について調べたところ,両者の間には明らかな関係があった。

 

データを共有することを拒絶した著者は,論文の中で誤りを犯しがちで,統計的な証拠が弱くなりがちな傾向があった。ほとんどの著者がデータを共有することを拒否したから,ヴイヒエルツは統計的な誤りを深く掘り下げることができなかった。ただ,もしかしたらより多くの誤りが潜んでいるかもしれない。

 

このことは,結果に欠陥があったり根拠の弱いものであったりすることを論文の著者が知っていたためにデータを隠したという証明には明らかになりえない。

 

交絡因子の候補はたくさんある。そして,相関関係は因果関係を含意しない。だが,相関関係は,示唆的に眉を揺らして,こっそりジェスチャーをしつつ,声を出さずに囗だけを動かして「あそこを見ろ」と言うのだ。

 

そして,驚くほど誤りの比率が高いことは,なぜデータを共有すべきかをはっきり示してくれる。

 

多くの誤りは,公刊された論文の中では明らかにならず,誰かがゼロから元々のデータを再分析するときにのみ発見されるのだ。

 

共有への障害

 

いくつかの分野ではデータの共有を促進しているものの,データの共有はいつもスプレッドシートを1つオンラインに投稿するように簡単なものだとはかぎらない。

 

簡単に共有できないものの例として,何千人もの科学者が貢献した遺伝子シークエンスデータペース,タンパク質構造データバンク,天体観測データペース,地球観測コレクションといったものがある。

 

とはいえ,医療データが,患者個人を特定できる情報をすべて慎重に取り除く必要があるため、特に扱いにくいデータになっている。

 

そして製薬会社は自らのデータに所有権を主張し,データを共有することに強く反対している。

 

事例として,欧州医薬品庁(European Medicines Agency: EMA)のことを考えてみよう。

 

2007年にノルディック・コクラン・センターの研究者が2種類の減量薬についてのデータを欧州医薬品庁に求めた。

 

同センターの研究者はこれらの薬の有効性について系統的再調査をしているところだった。

 

そして,欧州医薬品庁がヨーロッパ市場に薬を導入することを認可する機関であるため,製薬会社が登録したまだ公開されていないかもしれない試験データを保持しているはずだということを同センターの研究者は知っていたのだ。

 

しかし,欧州医薬品庁は,試験の計画方法と商業的計画を明らかにすることは「個人または企業の商業的利益に不当な損害を与える」可能性があるという理由で,データを開示することを拒否した。

 

さらに,データを隠すことが患者の害になるという主張を認めなかった。

 

3年半の官僚的な議論を経て,そして,すべての研究報告を見直して商業的秘密がないことが確認された後に,欧州オンブズマンがついに欧州医薬品庁に文書を公表するように命令した。

 

その間に,薬の1つは,深刻な精神医学上の問題を含む副作用があったため,市場から撤退していた。

 

学者も,データを秘密にしておくために,似たような理屈で正当化を図っている。

 

学者は商業的利益については気にしていない一方で,競合する科学者を気にしている。

 

データセットを共有すれば,学者が何か月もの時間と何千ドルもの資金を使って集めたデータをただで手に入れる者が出てきて,次の発見をそのただ飯食らいに出し抜かれることになるかもしれない。

 

このため,いくつかの分野ではデータがもはや無用になってはじめて,つまりそのデータについて可能なかぎり多くの論文を公刊したところで,データを共有することを考えることが普通に行われている。

 

学術界では,権威ある学術誌で多くの論文を公刊することが出世につながるため,出し抜かれる恐怖が大きな障害になっている。

 

経験の浅い科学者は,他人に公刊を出し抜かれるためだけに,1つのプロジェクトで働いた6か月を無為にすることに耐えられない。

 

バスケットボールと違って,アシストをしたことに関して学術的な栄誉はないのだ。

 

もし共著者となる栄誉がないのだとしたら,なぜ他人のためにわざわざデータを共有しなくてはならないのだろうか。

 

こうした考えは,科学の素早い進歩という大きな目的には合わないが,活動中の科学者にとってはやむをえないものなのだ。

 

プライバシー,商業上の問題,学問における競争のほかに,データ共有を妨げる実務的な問題がいくつかある。

 

データはさまざまな科学器具や分析パッケージで作成された独特の形式で保存されることがしばしばある。

 

さらに表計算ソフトはプロプライエタリだったり互換性がなかったりする形式でデータを保存する(ExcelのスプレッドシートやSPSSのデータが今から30年後も読める保証はないし,別のソフトウェアを使っている同僚が今読める保証すらない)。

 

いずれにせよすべてのデータが簡単にスプレッドシートとしてアップロードできるわけではない。何時間もの動画で記録がなされている動物行動学の研究や何時間もの対面調査を論拠としている心理学の研究はどうするのか。

 

たとえ何百時間もの動画を保管するのに十分な保存領域があったとしても,誰がそのコストを負担するというのだろうか。

 

そして誰がわざわざそれを見るというのだろうか。

 

データを公開するには,研究者がデータフォーマットと測定手法(機器の設定はどんなものを使ったのか。較正はどう行われたのかなど)について説明をすることが必要となる。
だが,研究室の組織というものは往々にして行き当たりばったりなものだから,研究者にはスプレッドシートや手書きのメモを取りまとめる時間がないかもしれない。

 

何ギガバイトにもなる生のデータを共有する方法を持っていない研究者もいるかもしれない。

 

 

データを隠すこと【統計解析講義応用】


セミナー詳細                    解析ご相談                    LINEでお友達

データを隠すこと【統計解析講義応用】

データを隠すこと【統計解析講義応用】