Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学におけるデータの視覚化【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学におけるデータの視覚化【統計解析講義基礎】

統計学におけるデータの視覚化【統計解析講義基礎】


データの視覚化は、データの特徴を把握し、データ解析のヒントを得たり、データ解析の妥当性を検証したりするために用いられます。

 

データの視覚化の方法は、よく知られている棒グラフなどの基本的グラフだけではなく、主に統計グラフとよばれるデータの分布を表現するためのグラフがあります。

 

さらに、複数の変数を同時に確認するための多変数のグラフがあります。

 

基本的なグラフと統計グラフ

 

グラフで表示する場合には、データを要約したり、特定の方向から見せたりすることにより、グラフ作成者の意図を反映したものとなります。

 

そのため、グラフの選択を誤ると、見るものに誤った印象を与えることになってしまいます。

 

基本的なグラフについては目的ごとに分類すると、量を示すためには棒グラフ、比率や内訳を示すためには円グラフや帯グラフ、値の推移を示すためには折れ線グラフが用いられます。

 

棒グラフは、2つ以上の変数の要約のためには、複合棒グラフや積み上げ棒グラフとして用いられます。

 

例として、図1にタイタニック号沈没時の生存・死亡の人数についての集計結果を棒グラフで表しました。

 

(b)の積み上げ棒グラフでは、棒について他の変数(ここでは生死)についての内訳がわかります。

 

これらのグラフ表現は、図2に示すようにモザイクプロットというグラフ表示としても実現できます。

 

モザイクプロットは、多次元の帯グラフと考えられ、1つの変数についての構成比により1辺の長さが比例しています。

 

左の種別と生死についてのモザイクプロットから、乗組員や3等船室の客では生存率が大きく異なることが確認できます。

 

3変数以上については、さらに内側を分割することで表現されます。

 

量的変数の分布を表示する主要な方法として、ヒストグラムとボックスプロットがあります。

 

以下では、例として平成16年全国消費実態調査(総務省)による、都道府県別の1ヶ月の酒類に関する消費支出についてのデータを用いて紹介しています(図3)。

 

ヒストグラムは、適切な階級(区間)に対して度数分布表として集計されたものを、棒グラフの形式で表示したものです。

 

階級数(区間の数)、階級の開始位置により異なる形状となるため注意が必要です。

 

適切な階級数kについては様々な提案がなされていますが、データ数nの大きさに依存し、k=√nやスタージェの公式 k=log n/log 2 などがあります。

 

階級に集計するのではなく、平滑化により分布を表現する方法もあります。

 

平滑化にも様々な方法があるため、手法の選択やパラメータの設定により異なる様相を示します。

 

ボックスプロット(箱ヒゲ図)は、5数要約を用いてヒストグラムよりも単純に、データの分布を示す方法です。

 

図4に示していますように、第1四分位数、第3四分位数の位置を示す箱の中に中央値を示します。

 

箱からは最小値と最大値まで線(ヒゲ)が伸びています。

 

Rなどの多くのソフトウェアでは、四分位数から1.5倍の四分位数範囲(IQR)にある最小値および最大値までを線をつなぎ、それを外れるものは、データ点を示す形で外れ値として示されます。

 

多変数としてのグラフ表示方法

 

質的変数と量的変数の要約プロットとしては、層別ボックスプロットがあります。

 

酒類の消費量について、地域別に層別ボックスプロットを示すと図のようになります。

 

ボックスプロットは、単体で用いる場合よりも、層別に用いることの方が多いです。

 

量的な2変数の分布を確認するためには、散布図を用います。

 

散布図は、2変数だけでなく3変数により3D散布図として用いられたり、3変数以上については、すべての2変数の組み合わせに対して散布図を示したりする散布図行列があります。

 

また、1つの変数について場合わけをして2変数の散布図を表示する条件付き散布図があります。

 

条件として質的変数を指定した場合には、すべての水準に対して個々の散布図が示され、量的変数を指定した場合には、指定した変数の値に対して同数のデータ数となるように区間に分けて散布図を表示します。

 

例としては、酒類の内訳として、清酒と焼酎について、ビールの支出の大きさにより5つの重なりがある区間で分けられた条件つき散布図を図6に示しました。

 

散布図は、2つの変数を直交座標(横軸と縦軸による座標)でデータ点を示す方法ですが、複数の変数について、座標軸を横にして(縦軸を並べて)表示する方法が並行座標プロットです。

 

並行座標プロットでは、量的変数は最小値から最大値までを軸の下限、上限とし、質的変数については各水準を1点で表しています。

 

並行座標プロットでは、ある個体に対する個々の変数の値を折れ線で結ぶため、隣り合う変数と正の相関が強ければ個体を示す直線の多くが平行となり、負の相関が高いと交わりが多くみられることを示します。

 

複数の変数と複数の個体の関連を散布図上に示す方法としてバイプロットがあります。バイプロットは主に、主成分分析の結果として用いられ、第1および第2主成分得点の散布図に、変数の主成分の係数をベクトルで示すことで、主成分の解釈や個体の特徴の把握が可能となる方法です。

 

例として、図7に消費支出データの7種の酒類についての主成分分析した結果をバイプロットで示しました。

 

バイプロットはいくつかの主成分の組により表示されるほか、正準判別分析、コレスポンデンス分析など、次元縮約により変数の線形結合として表す分析手法の視覚的表示方法としても用いられます。

 

このような多変量解析を行う場合には、取り扱う変数が多く、データの理解も困難になります。

 

特に興味のある対象について、複数のグラフで様子を確認したい状況があります。そのような場合にはインタラクティブグラフは有効です。

 

インタラクティブグラフが利用できるソフトウェアにおいて、描画されたグラフはリンクしており、一部のデータを選択すると、別のグラフにおいて対応するデータが強調表示されます。

 

ここで示したグラフのほとんどは、一般的な統計ソフトウェアには含まれているものです。

 

3D散布図が回転できたり、インタラクティブグラフが使えるなど対話性の高いグラフが利用できることは探索データ解析の手助けとなります。

セミナー詳細こちら                    解析ご相談こちら


 

統計学におけるデータの視覚化【統計解析講義基礎】

統計学におけるデータの視覚化【統計解析講義基礎】

統計学におけるデータの視覚化【統計解析講義基礎】