記述統計で円滑なコミュニケーション|要約統計量とデータの可視化【統計学・統計解析講義基礎】
記述統計の2本柱、要約統計量とデータの可視化によりコミュニケ―ションを円滑にしよう
記述統計で円滑なコミュニケーション
記述統計は、推測統計と並んで統計解析の2本柱の一つです。
記述統計は文字通り、データをいかにして記述するかについての統計解析です。
人にわかりやすく説明すること、人とのコミュニケーションを円滑にすることを主眼としています。
私たちはデータに囲まれて生活していますが、多くの場合、データの羅列というのはわかりにくいです。情報量が多すぎるのです。10個や20個のデータならまだしも、何百というデータの場合、それをただ眺めていても、何が言えるか判断するのは難しいです。生データでは、人との円滑なコミュニケーションは難しいです。
そこで、データを要約してまとめる(要約統計量)、もしくは一目でわかるようにする(データの可視化)ことが必要になります。
記述統計には大きく2つの手法、要約統計量とデータの可視化があります。
要約統計量:データをまとめる
では、データを要約してまとめるにはどうすればよいか、それには、要約統計量というものに置き換えるという方法があります。
簡単な例が平均値です。
たくさんあるデータを平均値として表現すれば、それを代表値として認識することができます。
代表値だけでなく、ばらつきも説明したいという場合は、標準偏差を示せばよいでしょう。
平均値、標準偏差、いずれも要約統計量ですが、最低限この2つがあれば、代表値のまわりにどんなばらつきで分布しているかをイメージすることができます。
例えば平均値が10、標準偏差が2という場合、
代表値が10で、そのまわりすなわち、8〜12の範囲にデータの68%を含むばらつきの分布である、とイメージすることができます。
たくさんあるデータを、平均値と標準偏差でまとめることにより、データをイメージすることができます。
また、報告書を作成したり、人に話して伝えたりする上でも、要約統計量でまとめておくと簡単であり、コミュニケーションが円滑に進みます。
記述統計にはもう一つの重要な機能があります。それはデータのグラフ化、可視化です。
データの可視化:一目でわかる
表でまとめられたデータというのは、私たちは解りにくいですが、これを散布図で表現すれば、データの特徴が一目でわかります。
例えば散布図が右上がりの挙動を示している場合は、これら2変数の間に相関があるとかないとかを視覚的に判断することができますが、表を見ているだけではわかりません。
また、散布図では外れ値を発見しやすいですが、表を見て外れ値を発見するというのは難しいでしょう。
また、300人の入院患者の年齢のデータが羅列してあるときは、平均値をとってもよいのですが、もっと有効な手段がヒストグラムです。
15歳〜20歳が35人、50歳〜55歳が121人、70歳〜75歳が23人といったように各年齢層にどれだけの人数がいるか、一目でわかります。
小児が多ければ小児科医を増やそうとか、高齢者が多ければ認知症外来を増設しようとか、経営判断に結びつけることができます。
記述統計の手法をたくさん知っておくと、相手にわかりやすく伝えることができるので、人とのコミュニケーションが円滑に進みます。また報告書作成なども効率よく進めることができます。
是非、記述統計の手法を身につけましょう。
記述統計とは何ですか?
記述統計は,データ(あるいは分布)の特徴をまとめ,記述するために使われます。
記述統計は,データを詳しく調べるために用いられる最初のツールであり,データが「どのように見える」かを示す,いくつかの重要な指標を得ることができます。
記述統計には,大きく2つのカテゴリーがあります。
第1のカテゴリーは,平均値,中央値,最頻値など,中心傾向の測度を見るものから構成されます。
これらはすべて「代表値」と呼ばれます。
これらのいずれも,データを代表する最良の点を表すために用いることができます。
たとえば、地域のあるレストランでのハンバーガーの売り上げに興味があるなら,最初の問いはおそらく,毎週平均して何個のハンバーガーが売れたかでしょう。
別の例をあげると,「車で最もよく売れるモデルは何か」が知りたいかもしれません。
第2のカテゴリーは,データの変動,広がり。ばらつきを見る記述ツールから構成されます。
これらの測度としては,範囲,標準偏差,分散などがあります。
これらの測度は,データの各点が互いにどれくらい離れているのかを教えてくれます。
たとえば,あるグループの子どもたちが読解スキルに関してどれくらい似ているのかを知りたければ,子どもたちの読解テスト得点の標準偏差を見るでしょう。
この記述統計量の値が小さいほど,これらの子どもたち同士でばらつきが小さい(違いが少ない)ことになります。
これら2つのカテゴリー,すなわち代表値と変動の測度を組み合わせることで,あるデータの性質と,他のデータとの違いについて,非常によく表すことができます。
そして,この2タイプの測度は、2群のデータにおける平均値差の有意性などもっと複雑な統計的処理の土台となります。
関連リンク