標準偏差と四分位範囲:統計の鍵を握る!【ChatGPT統計解析】
標準偏差と四分位範囲は、統計学でデータの広がりを測る基本的な尺度です。標準偏差は平均値からのデータの散らばり具合を示し、四分位範囲は中央値を基準としたデータの分布範囲を表します。例えば、ある食堂での客の給料分布を考えると、平均給与は42360ドルで、標準偏差は9616ドルと算出され、95%の人が平均値±2標準偏差内に収まるという経験則があります。しかし、データが正規分布から大きく逸脱している場合、例えば大富豪が食堂に訪れた場合などは、平均値や標準偏差ではデータの特性を正確に反映できません。このような場合には、中央値や四分位範囲のような指標がより有効です。データの説明には、平均値や中央値といった代表値のほかに、これらの広がりを示す尺度を考慮することが重要で、記述統計学の基本となっています。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
標準偏差は平均値からの広がりの尺度
世界で最も裕福な人が安い食堂へ行くこと自体、ましてや二度行くことなどそもそもあり得ないことかもしれませんが、先ほどの例を続けたいと思います。
ここでビル・ゲイツがWindowsのデザインの弱点に関して気立てのよい冷やかしを楽しみ、翌日はあまり忙しくないとしましょう。
さらに、食堂はずっと忙しく、その朝のある時点で80人の客が入ってきていたとします。
客の給料を表すヒストグラムを次に示します。
左から右へ進むx軸は、異なる集団ごとの異なる給料レベルを表しています(統計家はこれを「瓶bins」とよび、残念ながらデータがゴミであるとの意味合いを含みます)。
上下に移動するy軸は、各給料レベルにおける人の数を表しています。
例えば、食堂で食事をした人のうち16人は年間35000〜39000ドルの範囲に収まる給料をもらっていることを、このヒストグラムは示しています。
このヒストグラムから導くことはできませんが、私は平均給与額が42360ドルと計算できるデータを使用しました。
すべてのデータを集め、各々の1つずつの数字に変えました。
ここで、ある古い冗談があります。
ある統計家が頭をオーブンに、足は冷蔵庫に入れていて、どのような感じか尋ねられると、彼は「平均すると、なかなかいい感じ」と答えたのです。
ここから2つのことを学ぶことができます。
@統計家は下手な冗談をいう(私もここに含まれる?)ことと、
A1つの数値だけでは、データを上手く説明できないことが多い、ということです。よって、一般的に平均値や中央値のみを伝えるだけではなく(統計家がデータの代表値central tendencyとよぶもの)、データがどれほど変化するかの基準(統計家が広がりの尺度measure of spread、またはばらつきの尺度measure of dispersionとよぶもの)も考慮すべきなのです。
調査データがどれほど異なっているかを示す一般的な分散の基準が標準偏差standard deviation(SD)です。
標準偏差は、ここでは詳細を示しませんがある数式から算出することができます(大まかにいうと、各値と平均値の差をそれぞれ二乗し、二乗したすべての値の平均値の平方根(√ルート)を計算します。
覚えておくべきことは、データの標準偏差が小さい場合は、すべての人々が似通った給料をもらっていることを意味しており、標準偏差が大きい場合は人々の給料は大きく異なるという意味です。
どれほどの変動があるかを計算するには、とても簡単な経験則が活用できます。
最もよく知られているのは「観測値の95%は平均値の標準偏差が2以下である」というものです。
これは、たった5%の人が平均値より標準偏差が2以上の給料を得ていることと同じです。
ヒストグラムを作るためにしようした生データからは、9616ドルの標準偏差を算出しました。
ここから、5%の給料が61592ドル(平均値42360ドル+標準偏差9616ドル×2=61592ドル)より高く、また23128ドル(平均値42360ドル−標準偏差9616ドル×2=23128ドル)より低いことが推測できます。
偶然にも、1人は61592ドルより高く、2人は23128ドルより低い給料を得ていることになります(ヒストグラム参照)。
これは3/80つまり3.75%であり、合理的に5%に近いといえます。
また、(なぜか触れられる機会は少ないようですが)2/3の観測値は平均値の標準偏差が1以下であり、約半分の観測値は平均値の標準偏差が2/3以下であることも事実です。
ヒストグラムを用いることによってこれらの経験則を確認することができます。
例えば客の2/3は33000ドル(つまり42360ドル−9616ドル)と52000ドル(つまり42360ドル+9616ドル)の範囲の給料を得ているようにみえます。
これはもちろん、ビル・ゲイツが食堂に来る前のことです。
彼が来ることによって平均給料は1200万ドルとなり、標準偏差は1億ドルになります。
明らかに食堂にいるビル・ゲイツ以外の誰もが1億1200万ドルに近い給料を得ていないことに加え、マイナス8800ドルの給料は得られないので(大学時代の仲間で頑張っている者もいますが)、2/3の観測値が平均値の標準偏差が1に収まるパターンではありません。
よって一般的な経験則は、統計家が正規分布normal distributionとよぶベル型曲線からデータが外れた場合は応用できません。
こちらがビル・ゲイツを外したデータの正規曲線です。ご覧のとおり、悪くない当てはまり具合なので経験則はうまく働くことを示しています。
しかしビル・ゲイツが来ると「歪められた」といえるデータができます。
これは全く正規分布に当てはまりません。
よい当てはまり度合いが無い場合、標準偏差はどうするべきなのでしょうか?
四分位範囲は中央値からの広がりの尺度
初めてビル・ゲイツが食堂に来たとき、平均averageとして平均値meanの代わりに中央値medianを用いたことを思い出してください。
中央値をもとにした分散の測定は標準偏差ではなく四分位範囲interquartile rangeとよばれるものを使用します。
データの「中間」の値である中央値に対して、四分位quartilesは1/4と3/4にある位置の値のことです。
ヒストグラムに使用したデータで計算してみたところ、給料の中央値は41900ドル、四分位範囲は36000ドルから49300ドルでした。
この3つの数字はさまざまなことを教えてくれます。例えば、
客の50%は41900ドルより高い給料を得ており、50%は41900ドルより低い給料を得ている。
客の25%は49300ドルより高い給料を得ている
客の25%は36000ドルより低い給料を得ている
客の50%は36000ドルから49300ドルの間の給料を得ている
客の25%は36000ドルから41900ドルの間の給料を得ている
客の25%は41900ドルから49300ドルの間の給料を得ている
ビル・ゲイツが給料の平均と標準偏差を乱雑にしているものの、中央値と四分位範囲はかなり一定のままです(例えば、上位の四分位は49300ドルから49500ドルです)。
これが前章の最後に、データに大きな偏りがあった場合、中央値(そして四分位領域)を用いたほうが平均値(および標準偏差)を用いるよりも、データをより正確に反映することができると話した理由です。
ここに、さらにも1つ中央値と四分位範囲を使う理由を教えましょう。
がん患者を対象とした試験結果を解析したとき、まず最初に報告書に記載する情報の1つは試験に参加した患者の一般的特徴です。
年齢や男女の割合、早期がんの患者は何例で進行患者は何例だったのか。
ここである試験に参加する患者の年齢は正規分布にとても近かったと想像してみましょう。
読者が年齢分布を使って好みの解析ができるように、平均値と標準偏差の2/3、つまり64.3+9.8×0.667に入っています。
ちょっと待て・・・計算機はどこだ?」などと考える医師をみることはまずまれでしょう。
中央値と四分位範囲をみるだけで、上手く、素早く、扱っているデータの種類について知ることができます。
別の言い方をすれば、中央値と四分位範囲はデータの説明に非常に便利なのです。
そしてまさにこれが、私たちが読者に期待していることでもあります。
これまでに挙げてきたものすべて平均値、中央値、標準偏差、四分位範囲は記述統計量descriptive statisticsとして知られています。
@平均値と中央値はデータの説明に便利です。平均値と中央値は平均または代表値の種類です。
A一般的にデータの平均だけでなく、平均周りのデータがどれほど変化するか、つまり広がりの尺度を検討する必要があります。
B平均値とともに報告される広がりの尺度は標準偏差です。
Dデータの分布が正規分布に近い場合は、平均値と標準偏差からさまざまな解析をすることができますが、いくつかの計算が必要です。
E中央値と四分位範囲から、計算なしでデータの種類について素早く情報を得ることができます。
F中央値と四分位範囲は、偏りのあるデータを説明する際にも便利です。
G平均値、中央値、標準偏差、四分位範囲など、データを説明するために用いられる統計学は記述統計学と呼ばれています。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
標準偏差と四分位範囲の使い分けについて解説してください。
#制約条件:
ですます調の平易な日本語で
文字数は1000字程度
情報ソースも記述してください。
ChatGPTの回答
標準偏差と四分位範囲は、データのばらつきを評価するための統計量です。これらは、異なる側面からデータのばらつきを理解するために使われます。
標準偏差は、データが平均値からどれだけばらついているかを示す指標です。標準偏差が大きければ、データは平均値から離れて広がっています。通常、正規分布の形状を調べるときに使用されます。標準偏差が小さいほど、データが平均値に集中しています。
一方、四分位範囲は、データを昇順に並べたときに、下位25%から上位25%の範囲を示します。四分位範囲はデータのばらつきをロバストに評価します。外れ値の影響を受けにくく、データの中心部分のばらつきを把握するのに有効です。特に非対称な分布や外れ値がある場合に役立ちます。
例えば、統計モデルの評価では、標準偏差を使ってデータの分布の広がりを把握し、四分位範囲を使ってデータの中央部分のばらつきを把握します。これにより、データセット全体の特性をより良く理解し、適切な解釈や意思決定ができるようになります。
情報ソース:
Statistics for Business and Economics by Paul Newbold, William L. Carlson, and Betty Thorne
Introduction to the Practice of Statistics by David S. Moore, George P. McCabe, and Bruce A. Craig
関連リンク