偏差平方和から分散へ：データバラツキの数学的探求【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

中央値は個々のデータとの偏差の絶対値の合計が最小になる特性がありますが、絶対値は数学的に扱いにくいため、平均値がより一般的に使用されます。平均値を使用すると、偏差の二乗の合計が最小になることから、「偏差平方和」という概念が導入されます。偏差平方和はデータの個数に比例して増加するため、これをデータの個数で割った「分散」という指標が用いられます。分散はデータのバラツキを示す重要な指標ですが、単位が元のデータと異なるため、分散の平方根である「標準偏差」がより直感的なバラツキの指標として使用されます。標準偏差は分散よりも数学的な扱いが容易で、データのバラツキを直接的に示すことができます。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次偏差平方和から分散へ：データバラツキの数学的探求【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

個々の偏差をまとめる

偏差平方和：偏差の2乗の合計

分散と標準偏差

個々の偏差をまとめる

四分位数でバラツキを表すことにすると、外側の４分の１ずつのデータのバラツキはどうでもよくなります。

内側についてもそうです。

異常値はたしかに排除できますが、その他のデータのバラツキは依然として反映されていません。

そこで、個々のデータと平均値との差、つまり偏差を考慮する必要があります。

たとえば複数のデータがあり、個々のデータがばらついているとします。

個々のデータにはそれぞれ偏差がありますが、これを何とか１つにまとめる方法はないでしょうか。

個々の偏差をまとめる方法としては以下があります。

①中央値では、個別データとの偏差（絶対値）を合計したときの値が最小となる

②平均値では、偏差の２乗の合計が最小となる

上のどちらの場合も、偏差に関する合計であって、当然、個々の偏差が大きくなるほど大きくなります。

つまり、偏差合計が大きいということは、もとのデータのばらつきが大きいということです。

そこで、上の偏差の合計でバラツキの度合いを測ることを試みてみましょう。

といっても、中央値の場合と平均値の場合の２種類は必要ないので、どちらか一方にしましょう。

ここでは平均値を選んで、全体としてもバラツキを表すこととしましょう。

中央値ではなぜいけないのか、中央値のほうが具体性があってよいではないかという反論があるかもしれません。

しかし、中央値より平均値のほうが、実は統計理論を数学的に発展させるのに都合がいいのです。

中央値に出てくる、マイナスなしの絶対値という概念は、数学では意外と扱いにくいのです。

偏差平方和：偏差の2乗の合計

平均値を用いるとなると、平均値では、偏差の２乗の合計が最小となります。

偏差の２乗の合計は、「偏差平方和」と呼ばれています。

この呼び名は「偏差」「平方」「和」と分けられ、よくその計算手順をあらわしています。

記号を用いると、この値はＳＳ（sum of square）で表します。

数式で示すと次のようになります。

偏差平方和＝（個別データ－平均値）の２乗の全データ合計

SS＝（x1－m）2＋（x2－m）2＋・・・＋（xn－m）2

しかし、この式ではデータ個数ｎが多いほど、偏差平方和が大きくなります。

単純に考えれば、データ個数が倍になるとこの平方和も倍になります。

分散と標準偏差

したがって、この平方和をデータ個数で割り算したほうが、バラツキの大きさがデータ個数に左右されず合理的です。

このことから、次の式に示すところの分散という概念が生まれました。

この値は記号Ｖで示されます。

分散＝偏差平方和／データ個数

V＝SS/n

この分散は、バラツキを表す指標として大変重要です。

しかし、難点もあります。それは、偏差平方和と同じ次元、つまり測定単位が２乗されているのです。

２乗というのは具体性がありません。

また、平均値からどれだけ離れているかがわかりにくいです。

平均値との足し算引き算もできません。

そこで、この分散の平方根をとることにします。

この値がすなわち標準偏差（standard deviation）と呼ばれてよく用いる値です。

記号としてはＳＤあるいはギリシャ文字のσ（シグマ）が用いられます。

数式では次のように表されます。

標準偏差＝分散Vの平方根

σ＝√V

なお、分散Vは標準偏差を求めるための途中の副産物のように見えますが決してそうではありません。

ルートの記号（√）がついていないので、数学的な扱いには便利であり、理論の展開には分散のほうが頻繁に用いられます。

分散と標準偏差はセットにして覚えておくとよいでしょう。

関連リンク

統計学における平均への回帰

一元配置法の統計学

統計学における正規曲線（ベル曲線）とは

マッチング

統計学における割合の思考

最適な社員の数を計算する

SMO：治験施設支援機関

統計解析で重要な要約統計量：標準偏差

統計学における先物取引

ITTとPPS

前へ

1

2

3

4

5

6

次へ

【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
【医療統計解析】

【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

Google Gemini・Python・エクセルを使った講義で最速マスター

偏差平方和から分散へ：データバラツキの数学的探求【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

偏差平方和から分散へ：データバラツキの数学的探求【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

個々の偏差をまとめる

偏差平方和：偏差の2乗の合計

分散と標準偏差

サブメニュー

最新記事