Python・R・エクセルによるデータサイエンス | 統計解析講義

データ解析と統計ソフト【Python・R・エクセル統計解析】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

データ解析と統計ソフト【Python・R・エクセル統計解析】

データ解析と統計ソフト【Python・R・エクセル統計解析】


データ解析と統計ソフト【Python・R・エクセル統計解析】

 

データ解析を実際に行うためには、データ数が少なければ、電卓などでも可能な場合もあります。

 

しかし、なんらかの統計処理、統計解析が可能な「ソフトウェア」が用いられることが実際には多いです。

 

データを分析する際にソフトウェアが必要となる場面としては、「データ処理」、「データ解析」、「データの視覚化」があります。

 

Excelなどの表計算ソフトの分析機能によってもある程度の統計解析は実行できます。

 

例えば、Excelでは平均などの要約統計量の算出、度数分布表の集計、分布関数や分位数の計算などができる関数があります。

 

また、アドインのデータ分析ツールを用いることにより回帰分析、基本的な検定、分散分析が実施できます。

 

アドインのソルバーを使うことにより、残差平方和の最小化(最小2乗法)や尤度の最大化(最尤推定法)が実施できます。

 

統計ソフトウェアとしては、特定の解析手法に対するものから、多くの解析手法が実施できる汎用統計パッケージまで幅広いですが、利用者のスキルに応じて分類することもできます。

 

利用者を、エンドユーザー(ソフトウェア利用者)、パワーユーザー(若干のプログラムが可能な分析者)に分けると、エンドユーザーはGUI(グラフィカルユーザーインターフェイス)が用意され、メニューとダイアログボックスから分析を行うソフトウェアが適しています。

 

パワーユーザーには、コマンドを入力し、プログラミングも可能な統計解析ソフトウェアが適しています。

 

汎用統計解析パッケージ

 

統計解析を実施するための広範な分析手法とデータ編集、視覚化の機能をもつ総合的な統計解析ソフトウェアで、主要な汎用統計解析パッケージは、仮説検定を含む統計的推測、予測や次元縮約などのための多変量解析手法が準備され、解析対象データに対して、メニューから解析手法を選び、、データと解析オプションを指定することにより簡単に分析が実施できます。

 

どのパッケージも多くのデータ形式をサポートし、基本的な統計処理、非常に広範な統計解析手法、統計的グラフ表現を含むグラフの作成機能を有しています。

 

メニューからのGUIで解析を実施できる商用パッケージSPSS、JMP、STATISTICA、Minitab、SYSTATなどは、非常に多くの統計手法をカバーし、視覚化の機能も充実しているため初心者にも使いやすい設計となっています。

 

統計用プログラミング言語でもある商用パッケージSAS、S-PLUS、Stata、GPLライセンスによるフリーソフトウェアであるRなどはコマンド入力による対話的分析を行うインターフェイスです。

 

S-PLUSはWindows版ではGUIにより解析オプションの指定が容易となり、SASもアナリストアプリケーションなどGUIによる解析環境を提供していて、メニュー中心の統計パッケージと同様に利用できます。

 

これらのソフトウェアでは、パッケージに用意されていない分析手法について独自にプログラミングする際に、行列処理や最適化のための関数は用意されているため、効率的にプログラミングを行うことが可能です。

 

RはS-PLUSと互換性が高く、フリーソフトウェアながら、汎用統計解析パッケージとして商用のものと比べても機能や処理速度など遜色ありません。

 

解析手法の多くはパッケージとして追加することができ、最新のものが世界中の研究者から随時提供されています。

 

したがって、最新の手法が無料ですぐに利用することができるという長所があります。

 

RコマンダーやEZRなど、GUIにより統計解析が行えるパッケージもあるので、初心者にも使いやすくなってきています。

 

統計解析機能を追加して利用できるソフトウェア

 

Excelでは、アドインにより機能追加が可能ですが、商用のソフトウェアとして統計解析機能のアドインがいくつかあります。

 

NAG社のExcel NAG統計解析、NAGの統計解析ライブラリを利用してExcelから高度な統計解析が実施できます。

 

エスミ社のEXCEL統計解析シリーズは、EXCEL多変量解析など手法・適用分野に応じていくつかのソフトウェアがあります。

 

社会情報サービス社のエクセル統計は検定や多変量解析まで多機能であり、これらのアドインによりExcelが汎用統計パッケージとして利用できます。

 

数値計算言語であるMATLABには、Statistics ToolboxやModel Based Calibration Toolboxがあり統計パッケージとしても利用できます。

 

数式処理システムであるMathematicaには、線形計画法、統計、最適化のパッケージなどがあり、高度な統計処理に関するプログラミングが可能です。

 

視覚化ツール

 

視覚化ソフトウェアは、データをグラフ化することにより探索的な解析を行ったり、解析結果を評価するためのグラフ作成が実施できるなど、統計解析に密接に関係しています。

 

商用のカレイダグラフやSigma Plotは非常に多くのグラフをサポートしているだけでなく、基本統計量の計算や、検定などの統計解析機能を有しています。

 

多次元データの可視化のためのフリーソフトとして、xgobiの後継であるGGobiがあり、RからはR-GGobiとして利用できます。

 

多次元データの視覚化ツールは商用のものは高額ですが、GGobiはさまざまな角度からデータを探索することができます。

 

データマイニングツール

 

データマイニングツールは、大量のデータに対して予測、分類などを行うデータマイニングを行うためのツールとして開発され、機能別のアイコンをつなぎ解析するビジュアルプログラミングのスタイルで解析のフローを残すことができる特徴をもっています。

 

商用のソフトウェアとしてはSAS Enterprise Miner、SPSSのClementine、S-Plusを解析エンジンとしてマイニング機能を追加したVisual Mining Studioなどがあります。

 

非商用ではオープンソースのWekaは機能が多く、Javaで構築されているため、分析のための関数はクラスとしてJavaのプログラムではライブラリとして利用することもできます。

セミナー詳細こちら                    解析ご相談こちら


 

データ解析と統計ソフト【Python・R・エクセル統計解析】

データ解析と統計ソフト【Python・R・エクセル統計解析】

データ解析と統計ソフト【Python・R・エクセル統計解析】