Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における加重平均【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における加重平均【統計解析講義基礎】

統計学における加重平均【統計解析講義基礎】


統計学における加重平均【統計解析講義基礎】

加重平均の求め方

 

複数のデータの平均値を求めるときに、個々のデータにそれぞれウエイト(重み)をつけて計算する方法があります。

 

いわゆる加重平均です。

 

たとえば、ある高額商品の所有率が東京40%、大阪30%としたとき、両地域の平均所有率は、単純に平均値をとって35%でよいでしょうか。

 

両地域における世帯数の比が4対1であるとすれば、これをそのままウエイトとして用いて、

 

(40%×4+30%×1)÷(4+1)=38%

 

と計算したほうがいいでしょう。

 

東京のほうのウエイトが大きいので、加重平均は単純に平均するよりも東京のほうの所有率により近くなっています。

 

ウエイトの決め方

 

もし、東京が関東を代表し、大阪が関西を代表するものとみなせば、そのウエイトは変わってくるでしょう。

 

さらに関東の範囲はどこまでをいうのか、関西についてはどうかとなると、問題はそれぞれの地域のデータの代表性をどう考えるか、という分析者の主観的判断にかかわることになります。

 

また、ウエイトは人口とか世帯数のような客観的データのみとはかぎりません。

 

たとえば、ある会議である生産目標を決めようとしているのですが、各人の意見が楽観悲観いろいろと分かれるので、いっそ平均をとろうということになりました。

 

単純化して、意見の異なるA,B2人の人間がいて、それぞれの意見があるデータ(この例では生産目標)で表されるものとします。

 

この場合、2人の意見の平均を求めるのに、A,B2人のキャリアの違い、責任の重い軽いなどを考慮してウエイトを付けようとしたら、そう簡単にはウエイトをきめられなくなるはずです。

 

よく意見が合わないと「足して2で割る」といいます。

 

組合の要求額と会社の回答額が違うときなどの妥協案として一般的です。

 

つまりウエイトを等しくするのです。

 

相撲ならひとまず引き分けとなるのですが、お互い恨みっこなしの決着をつけるとなると、なぜか足して2で割りたくなります。

 

ウエイト付き集計

 

社内アンケート調査を行った対象者は男性女性なのですが、男性は人数が多すぎるので1人置きに半数だけ選んで調べました。

 

集計するときはどうするのでしょうか。

 

そのまま集計すると社員の意見は実態よりも女性に傾いてしまいます。

 

そこで男性は1人で2人分代表しているものとみて、男性の回答用紙をコピーして2倍に増やして集計します。

 

そうすれば性別の構成は会社全体と等しくなります。

 

実際にはわざわざ正直にコピーなどしなくても、コンピューターのなかでそれと同じようなデータ処理ができます。

 

この例では、男性女性に2対1のウエイトを付けて集計するのですが、これは「ウエイト付き集計」です。

 

加重平均に似たような考え方ですが、加重平均は別々の集計が終わってからウエイトを付けて平均します。

 

それに対してウエイト付き集計は、個人別データの段階でウエイトを付けておいて、後は好きなように集計するという違いです。

 

平均だけで判断するのはリスクが大きい例としては例えば以下のようなものがあります。

 

@彼は平均水深30センチの川でおぼれた

 

A山田君一家の平均年齢は10歳である。なぜなら成人に達した2人が双子を生んだからである。

セミナー詳細こちら                    解析ご相談こちら


 

統計学における加重平均【統計解析講義基礎】

統計学における加重平均【統計解析講義基礎】

統計学における加重平均【統計解析講義基礎】