データの散らばりを解明!偏差と分散の魔法【ChatGPT統計解析】
統計学において、データのばらつきを測る基本的な方法として、偏差と分散が用いられます。偏差は各データが平均からどれだけ離れているかを示す値ですが、この偏差の絶対値を用いるのではなく、2乗した値、すなわち偏差平方和が全データのばらつきを示すために利用されます。これは、絶対値の計算が正負の値によって手続きが異なり煩雑であるのに対し、2乗すればどのような数でも同様の手続きで処理できるためです。しかし、偏差平方和はデータの数に依存するため、より一般的なばらつきの尺度として、これをデータの数で割った分散が用いられます。分散は、偏差の2乗の平均とも解釈でき、計算の便宜性と理解のしやすさから、統計解析において広く採用されています。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
偏差は絶対値でなく2乗する
データのばらつきを端的に表現したものが偏差です。
偏差は、各データの値から平均を引いたものです。
偏差は個々のデータについてですが、データを総合的にみたばらつきを表現するのには、偏差平方和を用います。
さらに、偏差平方和はデータの数に依存するため、データの数に依存しない平均のばらつきの指標として、偏差平方和をデータの数で割った分散が用いられます。
言い換えれば、分散は偏差の2乗の平均ということができます。
なぜ偏差の絶対値をとらず2乗するのか
たしかに、偏差の絶対値を使って計算しても、偏差を全部正の値にしてから平均するという目的は達せられます。
しかし、絶対値の計算は2乗よりも一見簡単そうですが、実はそうではありません。
絶対値は中の値の正負で別の手続きが必要
2乗の計算は、どんな数に対しても同じ手続きでできますが、絶対値の計算は、そのなかの値が正の数と負の数となるそれぞれの場合で別の手続きが必要なのです。
実際、高校の数学には、Y=|2X+3|のグラフを描け、といったややこしい場合分けをする問題がよく出てきます。
こういう煩雑さを避けたいという事情で、偏差の絶対値の平均はあまり用いられず、偏差の2乗の平均である分散が用いられているのです。
また、2乗を考えると、これを3乗、4乗、・・・・に発展させることもできます。
これらは分布のモーメントと呼ばれているもので、これらもまた分散の特徴を表しています。
関連リンク