度数分布表・ヒストグラム|データの区切り級間の頻度で分布を表現【統計学・統計解析講義基礎】
度数分布表やヒストグラムはデータの分布状態を把握する手法。適切に設定されたデータの区切り級間の頻度で分布を表現
データの分布状態を把握する方法
次に、ある病院に入院している以下の65名の患者のデータの分布状態を把握する方法について考えてみましょう。
もちろん、これらすべてのデータについて、平均値±標準偏差で表現することはできます。
しかし、それでは情報の圧縮しすぎです。
例えばこの病院の病院長、経営者に対して、平均値±標準偏差で表現することで、インパクトがあるでしょうか。
そもそも、平均値±標準偏差のことを知ったところで、ではそれをどのような経営のアクションに結びつけるかがわかりません。
病院長にとって関心事は、当然ですが病院の経営です。
では、病院の経営において有用な情報とは何でしょうか。
病院長の関心事は、全体としてどうかではなく、どういう年齢層の患者が入院しているか、です。
仮に低年齢層が多ければもっと小児科を増員しようとか、高年齢層が多ければ認知症外来を新設しようとか、次の経営のアクションに結びつけることができます。
度数分布表とヒストグラム
このような場合は、先ず以下のような度数分布表にしてまとめます。
この例では、50歳代が9人、8人と多いことが一目でわかりますが、より視覚的にわかりやすく表現したい場合には、この度数分布表からさらに以下のようなヒストグラムを作成してまとめる方法が有効です。
このようにすれば、どの年齢層が何人くらい入院しているか、といったことが一目でわかります。
このようにデータが多量にある場合は一定の級間(この場合は5)でデータを区切り級間の頻度で表現する度数分布表やヒストグラムにまとめた方が、経営者にとってよりインパクトのある表現になる、といえるでしょう。
この例では50歳台、中高年層が多いので、生活習慣病検査を充実させた方が良いなどの判断が下されます。
多量データで分布を表現する場合には度数分布表やヒストグラムが有効です。
級間を適切に設定しうまくまとまるようにしましょう。