技術革新で揺らぐデータ維持と共有促進【ChatGPT統計解析】
データは技術の進化や人の異動で維持が難しくなる。研究者が使わなくなると、個人のデータアーカイブを保持する意欲が薄れ、特に古い媒体での再構築は困難だ。1991〜2011年の516本の記事の調査では、時間の経過と共にデータ取得は困難になり、20年以上経つ論文では半数未満のデータしか手に入らなかった。アドレス変更で連絡が取れない例や、古いフロッピーディスクにデータがあるが読み込めない例もある。対策として、フィグシェアはデータ共有を促進しDOIを付与、ドライアドはデータを保護し最新形式に更新し保存する。これにより研究者はデータ引用で栄誉を得られ、習慣の変化を促進する。ただし、科学の変化は遅く、誤りを発見するためにデータを確認する人が現れるかは不明だ。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
朽ち果てるデータ
コンピューターが交換されたり,技術が時代遅れのものになったり,研究者が他の機関に移籍したり,学生が卒業して研究室を離れたりすることによって,データを維持しつづけることが難しくなるということが挙げられる。
もしデータセットが作成者に使われなくなったとしたら,慎重に構成された個人的なデータセットのアーカイブを維持する動機はなくなる。
特に,データをフロッピーディスクや書類棚から再構築しなくてはならない場合はなおさら動機が薄れる。
1991年から2011年の間に公刊された516本の記事を対象にして行われた研究によれば,データが手に入る確率は時問が経つにつれ徐々に減っているという。
20年以上経った論文のうち,データセットが手に入ったものは半分に満たなかった。
執筆者の中には,Eメールアドレスが変わったために連絡を取れなかった人もいた。
他の執筆者の中には,データはあるかもしれないと返事したものの,フロッピーディスクに入っていてフロッピーディスクドライブをもう持っていないと答えたり,盗まれたかなくなったコンピューター上にデータがあると答えたりした人もいた。
さまざまなスタートアップ企業や非営利団体がこの問題に取り組もうとしている。
例えば,フィグシェア(Figshare)は,何ギガバイトもの公開共有用のデータ・図・プレゼンテーションをどんなファイル形式でも研究者がアップロードできるようにしている。
共有を促進するために,投稿されたものにはデジタルオブジェクト識別子(digital object identifier; DOI)が付与される。
これは,学術誌の記事を引くときに広く使われている一意の識別番号のことだ。
これが付与されていれば,データを再利用するときにデータの原作者を簡単に挙げることができるし,原作者は懸命な仕事の見返りとして学術的な栄誉を得ることができる。
ドライアドデジタルリポジトリ(Dryad Digital Repository)は学術誌と手を組んで,論文の執筆者が論文投稿中にデータを預けられるようにしている。
さらに,論文の執筆者に対して,使用したデータを出典として言及するように勧めている。
ドライアドは古い形式が時代遅れのものになったらファイルを新しい形式に変換することを約束していて,プログラムが読みこめなくなることでデータが埋もれてしまうことを防いでいる。
そして,ドライアドはいくつかの大学にデータのコピーを残しておくことで,データが突然失われることを防いでいる。
最終的な目標は,データの公開や再利用から栄誉を得ることを簡単にすることにある。
もし,他の研究者がデータを使って重要な発見をすれば,データの作成者も業績の余光をこうむることができる。
そして,自分の作ったデータが引かれることは,自分の書いた論文が引かれることと同列に扱われてもよい。
こうした動機付けがあれば,データセットをオンライン上に預けるために余計な仕事をすることについて,科学者は納得がいくかもしれない。
だが,これで十分なのだろうか。
科学における習慣の変化はとてもゆっくりだ。
そして,誤りを見つけるために,わざわざデータを確認する人が出てくるものだろうか。
データの維持は、技術の進化や人事の移動により非常に困難になることがある。具体的には、コンピューターが新しいものに交換されたり、使用されている技術が時代遅れになったり、研究者が新しい職場に移る、または学生が卒業して研究室を去るなどの要因が絡み合って、データを維持し続けることが難しくなる状況が生まれる。もしデータセットの作成者がそれを使用しなくなった場合、個人的なアーカイブを慎重に維持するモチベーションが低下するのは自然なことである。特に、データを古いフロッピーディスクや書類棚から再構築しなければならない状況に直面すると、その動機はさらに弱くなる。例えば、ある研究によれば、1991年から2011年の間に公刊された516本の記事を対象とした調査で、データが手に入る確率は時間が経つにつれ徐々に減少していることが分かった。この調査では、20年以上経過した論文の中でデータが入手可能だったものは半数にも満たなかった。中には、著者に連絡を試みたが、Eメールアドレスが変わっていて連絡がつかなかった例も多く報告されている。他にも、著者がデータはあるかもしれないと回答しつつも、それがフロッピーディスクに保存されており、もはやフロッピーディスクドライブを持っていないというケースや、盗まれたか、紛失したコンピューターに保存されているデータだと答えたケースも見られた。このようなデータの劣化や消失を防ぐため、さまざまなスタートアップ企業や非営利団体が取り組みを行っている。例えば、フィグシェア(Figshare)というプラットフォームは、研究者が何ギガバイトものデータ、図、プレゼンテーションを公開共有用にアップロードできるようになっており、どんなファイル形式にも対応している。このような取り組みは、研究者がデータを積極的に共有するよう促すものであり、投稿されたものにはデジタルオブジェクト識別子(DOI)が付与される。DOIは、学術誌の記事を引用する際に広く使用されている一意の識別番号であり、データを再利用する際に原作者を容易に特定することができるようになる。これにより、データの作成者は、自身の努力の成果として学術的な栄誉を得ることができるようになり、データの共有と再利用に対するインセンティブが生まれるのである。同様に、ドライアドデジタルリポジトリ(Dryad Digital Repository)というプロジェクトも、学術誌と提携して論文執筆者が論文を投稿する際にデータを保存できるよう支援している。さらに、執筆者に対して、使用したデータを論文の出典として適切に言及するよう奨励している点も見逃せない。これにより、研究の透明性が高まり、他の研究者によるデータの再利用や検証が促進される。加えて、ドライアドは古いファイル形式が時代遅れになった際に、新しい形式へと変換することを約束しており、プログラムがデータを読み込めなくなることで情報が失われてしまうリスクを減らしている。また、ドライアドは複数の大学にデータのコピーを保管することによって、突発的なデータの消失を防いでいる。こうした仕組みによって、データの長期的な保存と可用性が確保され、研究者たちが共有に踏み切りやすい環境が整備されているのである。最終的な目標は、データの公開や再利用から栄誉を得ることを簡単にし、研究者がデータの共有に対してより大きな価値を見出せるようにすることである。もし他の研究者がデータを使用して新たな発見をすることができれば、データの作成者もその発見による業績の一端を享受できる。例えば、ある研究がデータを引用して新たな知見を得た場合、データ提供者としての貢献が評価されることになり、論文の執筆者と同様に引用されることによって、その業績が広まることになる。これは、研究者にとって大きなモチベーションの源となりうる。こうしたインセンティブが整えば、データセットをオンラインにアップロードし、共有するために余分な作業を行うことに納得がいくと科学者たちが感じるようになるかもしれない。しかし、これだけの取り組みが十分なのかという疑問は残る。科学の分野における習慣の変化は非常にゆっくりで、長年にわたって続いてきたやり方を変えることは容易ではない。さらに、データを公開しても、果たしてそれを利用して誤りを発見しようとする研究者がどの程度出てくるのかという疑問も浮かぶ。データの再利用や再検証には時間と労力が必要であり、そのための十分な動機づけがない限り、科学界全体でデータの活用が十分に進むとは限らない。一方で、こうした問題を克服するために必要なのは、データの公開を研究者たちの評価基準の一部として正式に組み込むことである。研究者たちは、データを共有することが自分の研究キャリアにプラスの影響を与えることを確信できるようになる必要がある。例えば、データの共有によって得られた引用数が業績として評価されるシステムが確立されれば、研究者たちもデータの共有に対してより積極的になるだろう。また、教育機関や研究機関も、このようなデータ共有を促進するための仕組みを整えることが求められる。データの共有や再利用が一般的な文化となれば、科学的発展が加速し、より多くの発見やイノベーションが生まれることにつながるだろう。
関連記事