データを読む鍵!中心傾向とばらつきの秘密【ChatGPT統計解析】
記述統計学はデータの特徴をまとめ、記述するために用いられ、大きく中心傾向の測度(平均値、中央値、最頻値)とばらつきの測度(範囲、標準偏差、分散)の2つのカテゴリーに分かれる。中心傾向の測度はデータの代表値を提供し、例えば週間のハンバーガー売り上げの平均や最も売れる車種を示すのに使用される。一方で、ばらつきの測度はデータの変動や広がりを表し、例えば子どもたちの読解スキルの標準偏差を見ることで個々の差を把握する。これらの測度を組み合わせることでデータの全体像を捉え、より複雑な統計処理の基礎となる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
中心傾向の測度(平均値・中央値・最頻値)
記述統計は、データあるいは分布の特徴をまとめ、記述するために使われます。
記述統計は、データを詳しく調べるために用いられる最初のツールであり、データがどのように見えるかを示すいくつかの重要な指標を得ます。
記述統計には、大きく2つのカテゴリーがあります。
第1のカテゴリーは、平均値、中央値、最頻値など、中心傾向の測度を見るものから構成されます。
これらはすべて代表値と呼ばれています。
これらのいずれも、データを代表する最良の点を表すために用いることができます。
たとえば、地域のあるレストランでのハンバーガーの売り上げに興味があるのであれば、最初の問いはおそらく、毎週平均して何個のハンバーガーが売れたかでしょう。
別の例をあげますと、フォードの車で最もよく売れるモデルは何かが知りたいかもしれません。
ばらつきの測度(範囲・標準偏差・分散)
第2のカテゴリーは、データの変動、広がり、ばらつきを見る記述ツールから構成されます。
これらの測度は、データの各点が互いにどれくらい離れているのかを教えてくれます。
たとえば、あるグループの子どもたちが読解スキルに関してどれくらい似ているのかを知りたければ、子どもたちの読解テスト得点の標準偏差を見るでしょう。
この記述統計量の値が小さいほど、これらの子どもたち同士でばらつきが小さい、すなわち違いが少ないということになります。
これら2つのカテゴリー、すなわち代表値と変動の測度を組み合わせることで、あるデータの性質と、他のデータとの違いについて、非常によく表されます。
そして、これら2タイプの測度は、2群のデータにおける平均値差の有意差など、もっと複雑な統計的処理の土台となっています。
関連リンク