統計解析ソフトR|【Python・R・エクセル統計学・統計解析】
統計解析ソフトRとは
Rとは、統計解析パッケージというアプリケーションに分類されるソフトウェアです。
すなわち、あるデータに対して理論に基づいた計算処理を加えることで、一見しただけではわからない特徴や傾向を見出すことを支援するためのコンピュータソフトウェアです。
この種のソフトウェアの歴史は長く、PCの登場以前、いわゆる大型コンピュータの時代から何種かのソフトウェアがいくつか使われていました。
それらのうちの1つとしてSと呼ばれるものがあり、それをモデルとしえ1991年ごろから全く新たに作成されたものがRです。
Rは実績のあるSの長所を取り入れつつ、最近のPCが備えれいる現代的な機能、すなわち高解像度のモニタが標準的に装備されていたり、表計算ソフトやデータベースといったソフトウェアが大抵すぐに利用可能になっているという点を有効に活用できるようになっています。
古くから使われている統計解析パッケージの場合、こういった新機能への対応は後付けとして追加されてきたため、その利用方法に一貫性がなく、使いにくいことも多かったです
一方、Rは最初から新世代のコンピュータのために設計されたため、モダンな機能もごく自然に利用することができます。
Rが持っている非常に強力な作図機能はこの設計の賜物といえるでしょう。
また、Rには現在でも日々新しい統計解析手法が意欲的に組み込まれ続けています。
時折、変化が大きすぎて困ることもあるぐらいですが、常に最新の手法をアプリケーションソフトとして使うことができるということは大きなメリットです。
言語としてのR
Rは統計解析のためのソフトウェアですが、そのモデルとなったS同様、条件分岐や繰り返し、ユーザ定義関数などを使うことができます。
シンプルですが強力なプログラミング言語の処理系を内蔵しています。
これを使うことで、何度も繰り返し行う処理をいわゆるマクロのように便宜的に定義しておくこともできますし、標準では組み込まれていない新規の統計手法を使う汎用的な新関数を定義することもできます。
また、プログラミングに使う構文や、あらかじめ組み込まれている関数名はSと類似しているため、Sのために書かれたプログラムは少ない変更でRでも動かすことができます。
RやSの構文は独特ですが、多くの部分がLispの一種であるSchemeに類似しています。
一方で計算式はCやJavaのように直感的に記述できるので、Schemeの経験がなくてもCはJavaの知識があれば比較的すぐにプログラミングを始めることができるでしょう。
GNU R
Rの最大の特徴の1つが、その使用許諾、ライセンスです。RはGNU General Public License(略称GPL)のもとで配布されています。
詳細についてはRの配布アーカイブ中に収録されているGPLライセンスファイルに記述されていますが、このライセンスのもとで、Rの再配布と改変は自由に行われています。
また、ライセンスに従ってRのソースコードもRと同時に入手することができるため、Rにはブラックボックスとなる部分が一切存在しません。
つまり、Rの処理結果は、その算出過程をだれでも完全に追跡・検証することができるのです。これがRと他の統計解析パッケージとの最大の違いであるといってもよいでしょう。
仮にRの出力した結果に不審な点があれば、自分でもそれを追跡し、もしR自体に何らかの誤りがあれば、自分でそれを修正することができます。
Rの中身であるソースコードは誰でも閲覧することができますから、もし自分が追跡しきれなければ、他のRユーザーに協力することも可能であるし、あるいは専門家に調査を依頼してもよいでしょう。
Rの最新版はインターネット経由でダウンロードすることで入手できます。
最新版の配布サイトはComprehensive R Archive Network(略称CRAN)と呼ばれ、同一内容のサイトが全世界に28カ所(2004年3月現在)あり、どこからでも同じファイルをダウンロードできます。
またCRANからは、R本体だけではなく、Rの機能を拡張するための各種パッケージやRのドキュメント、ニュースレター等もダウンロードできるので、参照する機会は多いでしょう。
http://cran.r-project.org/mirrors.html
に地域ごとのCRANサイトの一覧があるので、近いところから選んで利用することができます。
関連記事