Python・R・エクセルによるデータサイエンス | 統計解析講義

統計解析は平均だけでは説明できない【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計解析は平均だけでは説明できない【統計解析講義基礎】

統計解析は平均だけでは説明できない【統計解析講義基礎】

統計解析は平均だけでは説明できない【統計解析講義基礎】

目次  統計解析は平均だけでは説明できない【統計解析講義基礎】


統計解析は平均だけでは説明できない

 

平均というのは確かにひと言で説明するには便利です。しかし、こんな場合はどうでしょうか。

 

Aという病院、Bという病院、いずれも外来患者の平均年齢は50歳です。

 

A:多数の診療科を有する総合病院
B:生活習慣病に関する診療科の多い病院
C:小児科と老年病科だけの病院

 

平均はみな同じなので、これらの病院の違いを説明するためには、平均だけでは難しいといえます。また、C病院について、「平均年齢は50歳です」と答えても、C病院の特性を何も表現していません。

 

記述統計の主たる役割は、「沢山ある数値をいかにしてわかりやすく情報を記述し、かつ情報をできるだけ損なわないようにするか」にあることを先ずしっかり念頭に置くことが大切です。

 

ただ機械的に、平均値の公式、標準偏差の公式などを覚えても何の意味もないのです。

 

今の病院の例をもう少し掘り下げてみましょう。

 

早い話が、以下のような散布図を見せて手早く説明できれば一番良いのです。

 

統計解析は平均だけでは説明できない【統計解析講義基礎】

 

どうでしょう。

 

このように図で示せば、A〜C病院の特性が一発でわかります。しかも、個々の患者の年齢の情報も失っていません。

 

要約統計量の平均値(50歳)も横棒で示されています。

 

このように散布図で示すことにより、平均だけでは得られなかった多くの情報を得ることができます。

 

この図は、Excelで作図することができます。散布図からは作れないので、マーカー付き折れ線を選択し、線を削除するという手間のかかる作業です。

 

私はExcelには手慣れている方であるがそれでも作成に30分かかりました。

 

それでも十分時間があれば、前日にこれを作成し翌日に報告することは可能です。

 

作るのは手間がかかるがこれがあれば説明は非常に楽だといえます。

 

A病院の特徴を説明するだけでよいという状況であれば、A病院の標準偏差は16.5歳なので、「平均±標準偏差が、50.0±16.5歳です」と答えればひと言で説明したことになります。

 

平均±標準偏差に68%が含まれる

 

また標準偏差そのものがよくわからない人に対しても、「平均50歳で、その前後16.5歳(つまり、33.5歳〜66.5歳)の幅に約68%の患者が含まれています。

 

成人の幅広い層を扱っている病院です」と回答すると良いでしょう。

 

散布図を見ても、たしかにそのようになっています。

 

この標準偏差の68という数字は是非覚えましょう。

 

人に説明するときも、68という数字で説明するとイメージがわきやすく理解しやすくなります。

 

同様にB病院の特徴を説明する場合は、「平均±標準偏差が、50.0±6.6歳です」と答えればよいでしょう。

 

そうすれば、B病院では、43.4歳〜56.6歳の幅に約68%の患者が集まっている、A病院よりは、中年層の患者の割合が多い病院なのだな、と理解できます。

 

C病院の場合は、むしろそれぞれの科の特性を表現したほうがよいでしょう。

 

小児科と老年病科に分けて、「小児科は平均6.6歳、老年病科は平均86.2歳です」と答えます。

 

このような病院で、全体の平均や標準偏差を表現する意味は全くありません。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計解析は平均だけでは説明できない【統計解析講義基礎】

統計解析は平均だけでは説明できない【統計解析講義基礎】

統計解析は平均だけでは説明できない【統計解析講義基礎】