散布図:視覚化の記述統計|データ全体の特性を表現・外れ値の発見に有用【統計学・統計解析講義基礎】
散布図は記述統計の手法の一つで、データ全体の特性を視覚的に表現したり、外れ値を発見したりする上で有用。横軸がカテゴリー変数の散布図もある
目次 散布図:視覚化の記述統計|データ全体の特性を表現・外れ値の発見に有用【統計学・統計解析講義基礎】
散布図:データ全体の特性を視覚的に表現
散布図は、記述統計の中でも重要な手法の一つに位置づけられています。
特に多数のデータの挙動を表現する上で有効な手法です。
たとえば、以下は26人の糖尿病患者さんの食前血糖値とHbA1cの値を表で示したものですが、この表から何が言えるでしょうか。
表というのは、データを整理しまとめる最初のプロセスとしては確かに重要です。
しかし、こういった表を見て、何かデータの特性をつかめるかというと、それはとても難しいです。
そこで、食前血糖値を横軸、HbA1cを縦軸として連続変数の2次元散布図を作成します。
すると図のようになります。
このように散布図にすると、表ではわからなかった新たな発見を得ることができます。
この例のように、各患者で食前血糖値とHbA1cの値が1つずつ得られているとき、ちょうど散布図の1点が1人の患者に対応していることになります。
つまり26個の点で散布図は表現されています。
さて、この散布図からどのような発見が得られるでしょうか。
先ず、データ全体の挙動が、右上がりになっています。
統計学の言葉でいうと、正の相関がある、という表現になります。
散布図:外れ値の発見に有用
さて、もう一つある発見が得られるのですが、それは何でしょうか。
食前血糖値120、HbA1c8.5という点が、全体から外れていることに気がつきます。
散布図の威力として、
@データ全体の特性を視覚的に理解しやすい
A外れ値を発見しやすい
という点があげられます。
横軸がカテゴリー変数の散布図
では、以下の例はどうでしょうか。
ある村の海側に住んでいる高齢者と、山側に住んでいる高齢者で、認知症スケールの値を比較したものです。
データを見るだけではわかりにくいですが、セルA13〜B14に、平均と標準偏差が計算されています。
これを見ると、平均は海側の方が2〜3スコア大きい、ばらつきは海側、山側いずれも同程度である、ということがわかります。
要約統計量があるので、これだけでもデータの特性はわかりますが、このような例でも、散布図を作成すると、データ全体の特性を視覚的にわかりやすく理解することができます。
同じ2次元散布図でも、先の血糖値のデータと異なる点は、横軸がカテゴリー変数(海側、山側といった、数値でない変数)であることです。
両者の平均値の差が3程度、ばらつきは同程度であることが、ひと目でわかります。
しかも、生データも併せて視覚的に把握できるので、要約統計量だけの場合に比べ、得られる情報量も多いです。
横軸文字列の散布図は作るのがやや面倒です。
Excelで散布図を作ろうとすると、XYがいずれもどうしても数値になってしまいます。
横軸文字列の散布図を作るためには、先ずはマーカー付き折れ線グラフを描いて「系列の書式設定」で「線なし」にすれば作成することができます。
このように、散布図は視覚的にわかりやすいという意味で説得力があります。
要約統計量とあわせて、散布図を活用すると、人に説明するときに説得力がありますし、何よりも説明自体が楽です。見ればわかるでしょう、という感じです。
会議で自分に与えられた時間が5分しかない、といった場合、会議の前に面倒でも散布図を作成し、それを会議で活用すれば短時間で理解してもらえるのでコミュニケーションのスムーズです。
是非、散布図を活用しましょう。