Python・R・エクセルによるデータサイエンス | 統計解析講義

標準偏差と四分位範囲の統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

標準偏差と四分位範囲の統計学【統計解析講義基礎】

標準偏差と四分位範囲の統計学【統計解析講義基礎】


標準偏差と四分位範囲の統計学【統計解析講義基礎】

 

世界で最も裕福な人が安い食堂へ行くこと自体、ましてや二度行くことなどそもそもあり得ないことかもしれませんが、先ほどの例を続けたいと思います。

 

ここでビル・ゲイツがWindowsのデザインの弱点に関して気立てのよい冷やかしを楽しみ、翌日はあまり忙しくないとしましょう。

 

さらに、食堂はずっと忙しく、その朝のある時点で80人の客が入ってきていたとします。

 

客の給料を表すヒストグラムを次に示します。

 

左から右へ進むx軸は、異なる集団ごとの異なる給料レベルを表しています(統計家はこれを「瓶bins」とよび、残念ながらデータがゴミであるとの意味合いを含みます)。

 

上下に移動するy軸は、各給料レベルにおける人の数を表しています。

 

例えば、食堂で食事をした人のうち16人は年間35000〜39000ドルの範囲に収まる給料をもらっていることを、このヒストグラムは示しています。

 

このヒストグラムから導くことはできませんが、私は平均給与額が42360ドルと計算できるデータを使用しました。

 

すべてのデータを集め、各々の1つずつの数字に変えました。

 

ここで、ある古い冗談があります。

 

ある統計家が頭をオーブンに、足は冷蔵庫に入れていて、どのような感じか尋ねられると、彼は「平均すると、なかなかいい感じ」と答えたのです。

 

ここから2つのことを学ぶことができます。

 

@統計家は下手な冗談をいう(私もここに含まれる?)ことと、

 

A1つの数値だけでは、データを上手く説明できないことが多い、ということです。よって、一般的に平均値や中央値のみを伝えるだけではなく(統計家がデータの代表値central tendencyとよぶもの)、データがどれほど変化するかの基準(統計家が広がりの尺度measure of spread、またはばらつきの尺度measure of dispersionとよぶもの)も考慮すべきなのです。

 

調査データがどれほど異なっているかを示す一般的な分散の基準が標準偏差standard deviation(SD)です。

 

標準偏差は、ここでは詳細を示しませんがある数式から算出することができます(大まかにいうと、各値と平均値の差をそれぞれ二乗し、二乗したすべての値の平均値の平方根(√ルート)を計算します。

 

覚えておくべきことは、データの標準偏差が小さい場合は、すべての人々が似通った給料をもらっていることを意味しており、標準偏差が大きい場合は人々の給料は大きく異なるという意味です。

 

どれほどの変動があるかを計算するには、とても簡単な経験則が活用できます。

 

最もよく知られているのは「観測値の95%は平均値の標準偏差が2以下である」というものです。

 

これは、たった5%の人が平均値より標準偏差が2以上の給料を得ていることと同じです。

 

ヒストグラムを作るためにしようした生データからは、9616ドルの標準偏差を算出しました。

 

ここから、5%の給料が61592ドル(平均値42360ドル+標準偏差9616ドル×2=61592ドル)より高く、また23128ドル(平均値42360ドル−標準偏差9616ドル×2=23128ドル)より低いことが推測できます。

 

偶然にも、1人は61592ドルより高く、2人は23128ドルより低い給料を得ていることになります(ヒストグラム参照)。

 

これは3/80つまり3.75%であり、合理的に5%に近いといえます。

 

また、(なぜか触れられる機会は少ないようですが)2/3の観測値は平均値の標準偏差が1以下であり、約半分の観測値は平均値の標準偏差が2/3以下であることも事実です。

 

ヒストグラムを用いることによってこれらの経験則を確認することができます。

 

例えば客の2/3は33000ドル(つまり42360ドル−9616ドル)と52000ドル(つまり42360ドル+9616ドル)の範囲の給料を得ているようにみえます。

 

これはもちろん、ビル・ゲイツが食堂に来る前のことです。

 

彼が来ることによって平均給料は1200万ドルとなり、標準偏差は1億ドルになります。

 

明らかに食堂にいるビル・ゲイツ以外の誰もが1億1200万ドルに近い給料を得ていないことに加え、マイナス8800ドルの給料は得られないので(大学時代の仲間で頑張っている者もいますが)、2/3の観測値が平均値の標準偏差が1に収まるパターンではありません。

 

よって一般的な経験則は、統計家が正規分布normal distributionとよぶベル型曲線からデータが外れた場合は応用できません。

 

こちらがビル・ゲイツを外したデータの正規曲線です。ご覧のとおり、悪くない当てはまり具合なので経験則はうまく働くことを示しています。

 

しかしビル・ゲイツが来ると「歪められた」といえるデータができます。

 

これは全く正規分布に当てはまりません。

 

よい当てはまり度合いが無い場合、標準偏差はどうするべきなのでしょうか? 

 

初めてビル・ゲイツが食堂に来たとき、平均averageとして平均値meanの代わりに中央値medianを用いたことを思い出してください。

 

中央値をもとにした分散の測定は標準偏差ではなく四分位範囲interquartile rangeとよばれるものを使用します。

 

データの「中間」の値である中央値に対して、四分位quartilesは1/4と3/4にある位置の値のことです。

 

ヒストグラムに使用したデータで計算してみたところ、給料の中央値は41900ドル、四分位範囲は36000ドルから49300ドルでした。

 

この3つの数字はさまざまなことを教えてくれます。例えば、

 

客の50%は41900ドルより高い給料を得ており、50%は41900ドルより低い給料を得ている。
客の25%は49300ドルより高い給料を得ている
客の25%は36000ドルより低い給料を得ている
客の50%は36000ドルから49300ドルの間の給料を得ている
客の25%は36000ドルから41900ドルの間の給料を得ている
客の25%は41900ドルから49300ドルの間の給料を得ている

 

ビル・ゲイツが給料の平均と標準偏差を乱雑にしているものの、中央値と四分位範囲はかなり一定のままです(例えば、上位の四分位は49300ドルから49500ドルです)。

 

これが前章の最後に、データに大きな偏りがあった場合、中央値(そして四分位領域)を用いたほうが平均値(および標準偏差)を用いるよりも、データをより正確に反映することができると話した理由です。

 

ここに、さらにも1つ中央値と四分位範囲を使う理由を教えましょう。

 

がん患者を対象とした試験結果を解析したとき、まず最初に報告書に記載する情報の1つは試験に参加した患者の一般的特徴です。

 

年齢や男女の割合、早期がんの患者は何例で進行患者は何例だったのか。

 

ここである試験に参加する患者の年齢は正規分布にとても近かったと想像してみましょう。

 

読者が年齢分布を使って好みの解析ができるように、平均値と標準偏差の2/3、つまり64.3+9.8×0.667に入っています。

 

ちょっと待て・・・計算機はどこだ?」などと考える医師をみることはまずまれでしょう。

 

中央値と四分位範囲をみるだけで、上手く、素早く、扱っているデータの種類について知ることができます。

 

別の言い方をすれば、中央値と四分位範囲はデータの説明に非常に便利なのです。

 

そしてまさにこれが、私たちが読者に期待していることでもあります。

 

これまでに挙げてきたものすべて平均値、中央値、標準偏差、四分位範囲は記述統計量descriptive statisticsとして知られています。

 

@平均値と中央値はデータの説明に便利です。平均値と中央値は平均または代表値の種類です。

 

A一般的にデータの平均だけでなく、平均周りのデータがどれほど変化するか、つまり広がりの尺度を検討する必要があります。

 

B平均値とともに報告される広がりの尺度は標準偏差です。

 

C中央値とともに報告される広がりの尺度は四分位範囲です。

 

Dデータの分布が正規分布に近い場合は、平均値と標準偏差からさまざまな解析をすることができますが、いくつかの計算が必要です。

 

E中央値と四分位範囲から、計算なしでデータの種類について素早く情報を得ることができます。

 

F中央値と四分位範囲は、偏りのあるデータを説明する際にも便利です。

 

G平均値、中央値、標準偏差、四分位範囲など、データを説明するために用いられる統計学は記述統計学と呼ばれています。

セミナー詳細こちら                    解析ご相談こちら


 

標準偏差と四分位範囲の統計学【統計解析講義基礎】

標準偏差と四分位範囲の統計学【統計解析講義基礎】

標準偏差と四分位範囲の統計学【統計解析講義基礎】