データ分布を見逃すな!平均値だけの落とし穴【ChatGPT統計解析】
統計解析では、データの平均値の比較が一般的だが、この比較は度数分布が変わらないことを前提としている。ただし、分布が異なる場合、平均値だけでは不十分であり、データの全体的な分布を確認する必要がある。特に、最頻値や中央値もデータの中心位置を表す重要な指標であるため、これらも考慮に入れることが推奨される。例えば、化粧品の使用量においても、平均値のわずかな違いが大きく感じられる場合があり、その際は分布の違いに注目し、分析を深めることが重要である。このように、平均値だけでなく、度数分布の形状やその他の特性値も慎重に分析し、適切な結論を導くための総合的な評価が求められる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
平均値の比較では度数分布を確認する
もし2つの会社の平均給与がわかったとしたら、若い就職希望者は、それの高いほうの会社を選ぼうとするでしょう。
社員の年齢構成などによって、給料の度数分布が会社ごとに異なることはいうまでもありません。
できれば、自分と同年齢の社員がいくらもらっているか、それが知りたいのですが、平均値しかわからないのなら仕方ありません。
ある化粧品を若い女性と中年女性とでどちらが多く使っているかは、それぞれの年代別の1人平均使用量を見ればいいでしょう。
年間で若い女性は平均3.5個、中年女性は平均3.2個であると知って納得するのですが、あとで、「若い方はいちおう皆さん同じようにお使いですが、中年の方になると向き不向きによってずいぶんと差があるようです」と付け足されると、平均値の些細な差が大きく感じられてしまいます。
それでも平均値による比較というのは実際によく行われます。
統計とは平均値をとってそれを比べることである、と定義したら、かなりの人たちは同意するに違いありません。
何がこのような比較を際限なく許しているのでしょうか。
実はこの比較を可能とする前提として、度数分布の型は、時間的(年月)にも、地域によっても、年代によっても、ほとんど変化しないことを暗黙のうちに認めているのです。
統計学に堪能な人でも、分布型のちょっとした違いなど「なに大したことないさ」と自分に言い聞かせます。
しかし、慎重かつ賢明な分析者は、平均値の比較だけでは不安であると思えば、データの度数分布を確かめた上で、もし目にみえて異なっていれば、それをコメントとして付言することでしょう。
最頻値・中央値も中心の位置をあらわす特性値
前年今年で、分布型に変化がなく平均値のみが増加したという状況では、度数分布がそのままほとんどその姿を変えないで、右のほうに平均値の増加分だけ移動したものと推察することができます。
この場合、平均値は、度数分布がどのへんに位置しているかを表す役割を担っています。
その位置が動けば、度数分布全体が動くのです。
いや、度数分布が動くから平均が動くのか、まさに表裏一体、なにも考えずにひたすら平均値の変化のみを追っていればいいのです。
統計学では、平均値は度数分布の中心の位置を表す1つの特性値であるとしています。
特性値とは、人間の体型を身長、体重などで表すように、度数分布の形や位置を表す値のことです。
ある人の体型は、本人を観察しなくても身長と体重を聞けばだいたい想像がつきます。
当の本人にしたら、年々の身長は変わりがないから、ひたすら体重計の針だけ追って太り具合をチェックしていればいいのです。
ときどきお腹の皮をつまんでみたりするだけでもいいのですが。
もし度数分布もわずかの特性値で形・位置がおおよそわかるなら便利このうえないといえます。
平均値だけでなく最頻値、中央値も中心の位置をあらわす一つの特性値です。
その他に、度数分布の広がりを表す特性値、非対称の度合をあらわす特性値などがあります。
関連リンク