平均か中央か、データの真実を見極めよ【ChatGPT統計解析】
平均値と中央値は、データを理解するために使われるが異なる性質を持つ統計量です。平均値は全てのデータ点の総和をデータの数で割ったもので、データ全体の「平均的な」値を表します。一方、中央値はデータを小さい順に並べた時に、ちょうど真ん中に来る値で、データの中央的な傾向を示します。外れ値が存在する場合、中央値はデータの中心をより正確に反映する傾向があります。そのため、外れ値の影響を受けやすい平均値よりも、中央値を用いることが推奨される場面があります。しかし、計画や判断をする際には、平均値がより適している場合もあり、目的に応じて適切な統計量を選択する必要があります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
平均値meanと中央値medianの違い
「ビル・ゲイツが食堂に入ると平均給料は変化する」。こんな統計家のジョークがあります。
大して面白いジョークではありませんが、このジョークのポイントは2つの異なる種類の平均average、つまり平均値meanと中央値medianの違いにあります。
食堂にビル・ゲイツが入ってくる前の従業員の給料が次のとおりだったとしましょう。
エリック85000ドル
ホセ50000ドル
バレット45000ドル
サンドラ40000ドル
トッド35000ドル
マイケル30000ドル
ケイティ30000ドル
平均値は、平均averageと聞いて通常想像するもので、全ての給料額を加算し、その合計を人数で割った値です。
すべての給料額を足し(315000ドル)、その合計金額を人数7で割ると、45000ドルになります。
中央値は「中間」の数字として知られています。給料を低いものから高いものに順番に並べたとき、中央値は半分まで行ったところにある額です。
7の中間は4なので、この食堂の給料の中央値は4番目に高い給料を得ているサンドラの40000ドルになります。
ここに年収10億ドルのビル・ゲイツがやってきたとしましょう(ほとんどの人は彼をお金持ちとよびますが、統計家は外れ値とよびます)。
ビル・ゲイツの給料は食堂の平均給料を1億2500万ドル強に変えてしまいます。
中央値は、8の中間がないことから4と5の中間になります。
4番目に高い給料は45000ドル、5番目は40000ドルであることから、食堂にいる人の給料の中央値は42500ドルになります。
ほとんどの人が、42500ドルは食堂にいる人の給料を正しく反映しており、1億2500ドルは参考にならないと言うでしょう。
以上のことから、ある法則ができあがります。
それは、まさに大手ソフトウェアの起業家が高脂肪な朝食を摂ろうとしたときに起こる現象ですが、データに外れ値があったときは、中央値を使うとよいということです。
ここで大事なポイントは、統計学で「ある法則」に出くわしたらよく注意する、ということです。
「状況の正しい反映」が統計学を応用する唯一の理由ではなく、その先の計画や決断を目的としているからです。
ここで、設定を食堂から病院に代えて、給料の代わりに外科手術に必要な費用、ビル・ゲイツの代わりにさまざまな合併症により250,000ドルにも上る手術費用が必要な患者を想像してみましょう。
患者185000ドル
患者250000ドル
患者345000ドル
患者440000ドル
患者535000ドル
患者630000ドル
患者730000ドル
患者8250000ドル
平均値は70000ドルを超え、中央値はビル・ゲイツの例と同様に42500ドルとなります。
もしあなたが病院の経営者だったとすれば、どちらの数値があなたにとって重要でしょうか。
42500ドルは一般的な患者負担額の「正しい反映」かもしれませんが、翌年の予算を患者1人あたり42500ドルで計算しようとすれば、おそらく予算不足に至るでしょう。
平均値と中央値の使い分け
平均値と中央値を考えることは、例えば私が医療保険に加入し(私のように支出が保険の掛け金より断然小さいアメリカ人の年間出費の中央値は、平均年間出費を考えるとかなり割りのより取引に思えます)。
シートベルトを着用する(ドライブでの負傷数の中央値がゼロっだったとしても)理由につながります。
ということで食堂にビル・ゲイツが登場せず退屈しているときのために、珈琲で汚れたナプキンで走り書きができる、ある法則を教えましょう。
「統計学ではときに正解も不正解もありません。すべては何を目的として統計学を用いるかによるのです」。
@多くの人が「平均average」とよぶものは、統計家が平均値とよぶものです。平均値の計算には、データを数字配列と考え、すべての数字を足して、並んでいる数字の個数で割るとよいでしょう。
A中央値は数字配列の中央の値です。並べられた数の半分は中央値より値が大きく、半分は中央値より値が小さくなります。
B外れ値とは、データのパターンに従わない観測値です。
C外れ値があるとき、中央値は平均値よりデータを正しく反映していることが多いです。
D一般的に、計画を立てるときや判断をする際には中央値より平均値がよいです。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
平均値と中央値の使い分けについて解説してください。
#制約条件:
ですます調の平易な日本語で
文字数は1000字程度
情報ソースも記述してください。
ChatGPTの回答
平均値と中央値は、データの中心傾向を表す統計量ですが、使い分けには注意が必要です。
まず、平均値は、データの合計をデータ数で割った値です。全体のデータを均等に分配した場合の1つの代表値として用いられます。しかし、外れ値がある場合には平均値が影響を受けやすく、データの分布が歪むことがあります。
一方、中央値は、データを小さい順に並べた際に中央に位置する値です。中央値は外れ値の影響を受けにくいため、データの分布が非対称であったり外れ値がある場合に有用です。また、順序尺度や間隔尺度のデータにも適しています。
使い分けのポイントは、データの特性や分布によります。データが対称的で外れ値が少ない場合は平均値が適しています。しかし、データに外れ値が多く存在する場合や非対称な分布を持つ場合は中央値が適しています。
例えば、給与データの場合、外れ値(例:高額な役員報酬)がある可能性があります。このような場合は中央値を用いることが適切です。一方、試験の点数データの場合は、一般的に外れ値が少なく、対称的な分布を持つため、平均値が適しています。
結論として、データの特性や分布を考慮して平均値と中央値を使い分けることが重要です。外れ値の影響を受けやすいかどうか、データの対称性や分布形状などを注意深く検討し、適切な代表値を選択することがデータ解析において重要です。
【情報ソース】
平均値と中央値の使い分け、統計WEB、https://bellcurve.jp/statistics/course/9724.html