便利になったデータ解析の環境|統計ソフトはプロセスを教えてくれない【統計学・統計解析講義基礎】
便利な時代になり、PCさえあればどこでもデータ解析が出来るようになった。一方、貧弱な解析手法では通用しなくなり、統計ソフトはプロセスを教えてくれないという問題がある。統計解析の知識、技術は今後益々必要
便利になったデータ解析の環境
便利な時代になりました。誰でも携帯可能なPCを持ち、どこでもデータ解析が出来るようになりました。
無料のPythonやRはPCさえあればプログラミングの基礎さえあれば使えるし、Rの使い方がわからないという方も、より使いやすくわかりやすいEZRの登場により解決されました。
統計学をとりまく環境は今後もますます便利になっていくでしょう。
それはそれでいいことなのですが、大事なのは便利になったのはあなただけではないということです。
統計解析は昔は確か専門家しか扱えない世界でしたが、それゆえに、関数電卓を使った脆弱な解析手法でも、論文投稿で堂々とまかり通っていました。
30年前の論文を見てもらうとわかりますが、多重性などおかまいなしで2群比較のt-検定を平気で繰り返したり、連続変数であるにもかかわらずノンパラメトリック検定をしたり、などの論文をよく見かけます。
ちょっと難しい多変量解析などを実施したら、物凄く高度なことをしていると思われ周りから尊敬されたりします。
実際、論文の査読もこと統計解析に関しては甘かったです。
CONSORTのような基準もなかったので、試験デザインのいいかげんなランダム化比較試験もまかり通っていました。
しかし今はそうはいきません。
論文投稿の際に方法のパラグラフで、関数電卓を使って解析しましたとか、Excelを使って解析しましたなどと記載すると確実に通りません。
正規のオーソライズされた統計解析ソフト、SASやJMP、SPSSなどで解析する必要があります。
また、仮にオーソライズされた統計解析ソフトを使ったとしても、査読者から解析手法についてコメントをもらい、改善を求められることも多々あります。
査読者だけでなく、科学者の統計解析のレベルは、30年前にくらべとかなり上がっています。
誰でも便利になった分、誰でもそこそこレベルの高い解析をするようになったので、逆に貧弱な解析手法では通用しない、最低でも競争相手と同じレベルまでは統計解析の技術を身につける努力が必要になります。
統計ソフトはプロセスを教えてくれない
また、統計ソフトは便利ではありますが一つ問題があります。
それは、統計ソフトは結果は出してくれますが、そのプロセスについて全く教えてくれないということです。
統計ソフトの出力のプロセスはブラックボックスなのです。
例えば分散分析表などは瞬時に出してくれますが、表中の平方和をどうやって計算したか、p値をどう解釈するか、などは全く教えてくれません。
それをそのまま、学会発表のスライドに用いて、聴講者から質問を受けたときにうまく答えられない、という事態が発生します。
論文投稿でもしかり、査読者からのコメントにうまく答えられないという事態になります。
結論からいうと、便利な世の中にはなりましたが、それでも努力は必要ということです。
将来、統計解析に関して何もする必要がなくなる、という時代は決して来ません。
統計解析は科学者にとってはある意味言語と同じコミュニケーションツールです。
最初の試験デザインが妥当であることはもとより、解析のプロセスを理解することは、相手を理解させる、説得させるためには欠かすことができません。
また、今後世の中のデータは益々あふれていきますが、そのような膨大なデータから如何にして意味のある結果を得るか、に着目すると、統計解析の知識、技術は今後益々必要ということになります。