朽ち果てるデータ|【統計学・統計解析講義応用】
朽ち果てるデータ
コンピューターが交換されたり,技術が時代遅れのものになったり,研究者が他の機関に移籍したり,学生が卒業して研究室を離れたりすることによって,データを維持しつづけることが難しくなるということが挙げられる。
もしデータセットが作成者に使われなくなったとしたら,慎重に構成された個人的なデータセットのアーカイブを維持する動機はなくなる。
特に,データをフロッピーディスクや書類棚から再構築しなくてはならない場合はなおさら動機が薄れる。
1991年から2011年の間に公刊された516本の記事を対象にして行われた研究によれば,データが手に入る確率は時問が経つにつれ徐々に減っているという。
20年以上経った論文のうち,データセットが手に入ったものは半分に満たなかった。
執筆者の中には,Eメールアドレスが変わったために連絡を取れなかった人もいた。
他の執筆者の中には,データはあるかもしれないと返事したものの,フロッピーディスクに入っていてフロッピーディスクドライブをもう持っていないと答えたり,盗まれたかなくなったコンピューター上にデータがあると答えたりした人もいた。
さまざまなスタートアップ企業や非営利団体がこの問題に取り組もうとしている。
例えば,フィグシェア(Figshare)は,何ギガバイトもの公開共有用のデータ・図・プレゼンテーションをどんなファイル形式でも研究者がアップロードできるようにしている。
共有を促進するために,投稿されたものにはデジタルオブジェクト識別子(digital object identifier; DOI)が付与される。
これは,学術誌の記事を引くときに広く使われている一意の識別番号のことだ。
これが付与されていれば,データを再利用するときにデータの原作者を簡単に挙げることができるし,原作者は懸命な仕事の見返りとして学術的な栄誉を得ることができる。
ドライアドデジタルリポジトリ(Dryad Digital Repository)は学術誌と手を組んで,論文の執筆者が論文投稿中にデータを預けられるようにしている。
さらに,論文の執筆者に対して,使用したデータを出典として言及するように勧めている。
ドライアドは古い形式が時代遅れのものになったらファイルを新しい形式に変換することを約束していて,プログラムが読みこめなくなることでデータが埋もれてしまうことを防いでいる。
そして,ドライアドはいくつかの大学にデータのコピーを残しておくことで,データが突然失われることを防いでいる。
最終的な目標は,データの公開や再利用から栄誉を得ることを簡単にすることにある。
もし,他の研究者がデータを使って重要な発見をすれば,データの作成者も業績の余光をこうむることができる。
そして,自分の作ったデータが引かれることは,自分の書いた論文が引かれることと同列に扱われてもよい。
こうした動機付けがあれば,データセットをオンライン上に預けるために余計な仕事をすることについて,科学者は納得がいくかもしれない。
だが,これで十分なのだろうか。
科学における習慣の変化はとてもゆっくりだ。
そして,誤りを見つけるために,わざわざデータを確認する人が出てくるものだろうか。
関連記事