外れ値に惑わされず平均値を見極める技術【ChatGPT統計解析】
平均値は統計学において中心傾向を示す重要な測度であり、群内の全値の合計を値の数で割ることで算出されます。これは偏差の合計がゼロになる点としても理解され、算術平均とも呼ばれます。計算方法は、まずデータの全値を合計し、それを観測値の数で割ること。しかし、平均値の大きな限界点は外れ値の影響を受けやすいことです。例えば、一連の得点である4、6、7、8、20の平均は9となりますが、20という外れ値に引っ張られ、実際のデータの中心を正確に反映していない可能性があります。このように平均値はデータの一般的な傾向を示す有用な指標ですが、外れ値の存在には注意が必要です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
中心傾向の測度としての平均値の計算法
平均値とは何でしょうか。どのように計算するのでしょうか。
平均値は、中心傾向の測度として最もよく使われます。
ある群のすべての値を合計し、その群に含まれる値の個数で割ったものです。
より専門的な定義は、平均値とは偏差の合計がゼロになる点、ということです。
ここで述べている平均値の種類は、算術平均と呼ばれるものです。
算術平均は、すべての値の合計を、値の数(標本の大きさ)で割ったものです。
統計学では、標本の大きさは小文字のnで表現され、母集団の大きさは大文字のNで表現されます。
平均値の計算は以下の手順で行います。
@データのすべての値を一覧にする
A値を合計する
B観測値の個数(標本の大きさ)で割る
たとえば、一組の得点が7、8、4、6、5ならば合計は30なので、平均値は30/5、つまり6となります。
平均は大文字のXの上にバーを載せて表されることが非常に多いですが、Mと表されることもあります。
外れ値の影響を受けやすい
中心傾向の測度として平均値を用いることの注意点として、平均値は外れ値の影響を受けやすいということがあります。
たとえば、4、6、7、8、20の得点の平均は9ですが、この数字はこの一連の得点を最もよく表しているとはいえません。
なぜなら、この平均値は、20という外れ値の方に引っ張られているからです。
関連リンク