データのバランス芸術:平均値の重心を探る【ChatGPT統計解析】
平均値は数学的に度数分布の重心に位置し、データの重心という具体的、直接的、普遍的な特性を表しています。非対称型の分布では、非対称の度合いが大きいほど平均値と最頻値のずれは顕著になります。偏差の和がゼロになることから、平均値の位置は度数と偏差の合計が左右対称になる点、つまりバランスが取れる点として解釈できます。この理解は、地球上で生活する中で獲得した重力や重心に関する直感に基づいており、データ分析においてもこの直感を利用する価値があります。ただし、異常値の存在は平均値を大きくずらす可能性があり、注意が必要です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
平均値は度数分布の重心
では、ふつうもっともありふれた非対称型の場合、平均値は最頻値からどれくらいずれるでしょうか。
正確には平均値を計算してみる以外にありませんが、非対称の度合が著しいほどずれるのは当然です。
ところで、平均値は数学的には度数分布の重心の位置にあります。
これは次のように証明されます。
先に述べた「偏差の和=0」から、度数×偏差の合計を計算すると、平均値の左右でイコールになります。
そこで、度数=おもり、平均値=支点 とみなせば、テコの原理でバランスがとれるのです。
私たちは、生まれて以来、この地球にずっと住みついていて、重力にはお馴染みで、また重心の感知能力はきわめて高いといえます。
その能力なくして2本足での直立歩行などできるものではないからです。
うちの飼い猫を見ていると、4本足のせいか、塀の上でもどこでも無造作に歩いて、バランスをとる気苦労などすこしもなさそうです。
ということで、平均値の存在理由は、単に抽象的な計算結果などではなく、データの重心という、きわめて具体的、直接的、普遍的な特質にあるのです。
このおなじみの特質を早速利用しない手はありません。
データの重心という具体的・直接的・普遍的な特質
平均値の位置を直感的に知るために、度数分布の山型に描かれた部分を切り抜いて、鉛筆のような棒にのせて左右のバランスをとります。
そこが平均値の位置なのです。
実際に紙を切り抜いたりの手間をかけなくても、長らく地球人をやってきている読者には、想像力だけで、「平均はこの辺りだな」とおおよその見当はつくはずです。
頭だけの理屈で考えると、分布の左右の面積をイコールにすればいいと誤解する向きもあるでしょう。
しかし、体験的直観はそうでないことを教えてくれます。
ただ、異常値があると、テコのおもりがずっと端のほうに寄ったようなもので、平均値(支点)はそれによって大きくずれて、重心の位置の見当がつきにくくなります。
バランスをとるのに十分気をつけたいところですが、やはり平均値は異常値に弱いといえます。
関連リンク