加重平均で見る、データの深層!ウエイトの秘密【ChatGPT統計解析】
加重平均とは、異なる個々のデータに重みを与えて平均を計算する方法である。例えば、東京と大阪の高額商品の所有率を比較する場合、世帯数の比を重みとして利用することができる。ウエイトの決定は、地域の代表性や人口、世帯数など客観的データに基づいたり、個人の意見やキャリアなど主観的要素を考慮したりすることがある。ウエイト付き集計は、データの段階でウエイトを加え、後は自由に集計する方法であり、社内の性別構成を等しくするために男性のデータを2倍にして集計することも例として挙げられる。この手法は、単純な平均よりも実情に即した分析が可能になる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
複数のデータの加重平均の求め方
複数のデータの平均値を求めるときに、個々のデータにそれぞれウエイト(重み)をつけて計算する方法があります。
いわゆる加重平均です。
たとえば、ある高額商品の所有率が東京40%、大阪30%としたとき、両地域の平均所有率は、単純に平均値をとって35%でよいでしょうか。
両地域における世帯数の比が4対1であるとすれば、これをそのままウエイトとして用いて、
(40%×4+30%×1)÷(4+1)=38%
と計算したほうがいいでしょう。
東京のほうのウエイトが大きいので、加重平均は単純に平均するよりも東京のほうの所有率により近くなっています。
ウエイトの決め方
もし、東京が関東を代表し、大阪が関西を代表するものとみなせば、そのウエイトは変わってくるでしょう。
さらに関東の範囲はどこまでをいうのか、関西についてはどうかとなると、問題はそれぞれの地域のデータの代表性をどう考えるか、という分析者の主観的判断にかかわることになります。
また、ウエイトは人口とか世帯数のような客観的データのみとはかぎりません。
たとえば、ある会議である生産目標を決めようとしているのですが、各人の意見が楽観悲観いろいろと分かれるので、いっそ平均をとろうということになりました。
単純化して、意見の異なるA,B2人の人間がいて、それぞれの意見があるデータ(この例では生産目標)で表されるものとします。
この場合、2人の意見の平均値を求めるのに、A,B2人のキャリアの違い、責任の重い軽いなどを考慮してウエイトを付けようとしたら、そう簡単にはウエイトをきめられなくなるはずです。
よく意見が合わないと「足して2で割る」といいます。
組合の要求額と会社の回答額が違うときなどの妥協案として一般的です。
つまりウエイトを等しくするのです。
相撲ならひとまず引き分けとなるのですが、お互い恨みっこなしの決着をつけるとなると、なぜか足して2で割りたくなります。
ウエイト付き集計
社内アンケート調査を行った対象者は男性女性なのですが、男性は人数が多すぎるので1人置きに半数だけ選んで調べました。
集計するときはどうするのでしょうか。
そのまま集計すると社員の意見は実態よりも女性に傾いてしまいます。
そこで男性は1人で2人分代表しているものとみて、男性の回答用紙をコピーして2倍に増やして集計します。
そうすれば性別の構成は会社全体と等しくなります。
実際にはわざわざ正直にコピーなどしなくても、コンピューターのなかでそれと同じようなデータ処理ができます。
この例では、男性女性に2対1のウエイトを付けて集計するのですが、これは「ウエイト付き集計」です。
加重平均に似たような考え方ですが、加重平均は別々の集計が終わってからウエイトを付けて平均します。
それに対してウエイト付き集計は、個人別データの段階でウエイトを付けておいて、後は好きなように集計するという違いです。
平均値だけで判断するのはリスクが大きい例としては例えば以下のようなものがあります。
@彼は平均水深30センチの川でおぼれた
A山田君一家の平均年齢は10歳である。なぜなら成人に達した2人が双子を生んだからである。
関連リンク