データ異質点:外れ値の検出と対応【ChatGPT統計解析】
外れ値(outlier)は、他のデータと大きく異なる値を指します。日本の1995年の人口データで東京が例外的に大きいように、自然科学や医学でも異質なデータが発生することがあります。これらの外れ値は除外することが望ましいですが、判断は慎重に行う必要があります。例えば、呼吸器感染症患者のGPT値データで33が外れ値と判定される場合、医学的な検討が必要です。スミルノフ・グラブス検定は正規分布を仮定し、特定の計算式で外れ値を判定しますが、分布の前提が疑わしい場合には適用できません。対数正規分布に従うデータでは大きな値が外れ値とは言えないこともあり、社会問題では慎重な対応が必要です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学における外れ値(outlier)
1995年の日本の都市の人口を大きいところで並べてみると、東京は群を抜いて(まさに例外的に)大きいことがわかる。
いいかえると、東京はそれ以外の都市とは同列に扱えない異質な集団といってよい。
自然科学においても、測定ミスあるいは異なった測定法からもこのような傾向の値が出ることがある。
もっとも、単純なケースでは単なる誤記もありえる。
このように、明らかに他と飛び離れて大きい最大値(あるいは最小値)を「外れ値」という。
英語ではoutlierすなわち外れにあるものを意味する。
外れ値が異質母集団からのデータであることがわかったとき、それは除外して集計を行うことが望ましい。
実際、平均やばらつきはこの除外によって変わるので、現実には外れ値であることの判定は重要なデータ分析の課題となる。
人口データでも東京を入れて計算するケースと除外して計算するケースでは少なからぬ結果の違いを生じ、場合によっては議論をよぶだろう。
人の健康現象を扱う医学のデータでも、外れ値らしき値が出る場合があるが、人の健康がかかわるだけに、社会的にも問題は小さくない。
たとえば、次の数字を見よう。
5, 6 ,7,8,10,11,12,13,15, 18, 19, 20, 22, 33
これは広津(2004年)に引用されている呼吸器感染症患者のGPT値データであるが、33が外れ値の可能性がある。
「他と飛び離れた」という表現はあいまいである。
したがって、「外れ値」であることの検定(外れ値の検出)を慎重に行わねばならない。
外れ値であることの判定
外れ値であるか否かのよくある検定法は、これこれの分布と仮定すると、この分布からはとうてい出そうもない外れた値である、と判定するものである。
しばしば「正規分布」が仮定される正規分布は、取り扱いやすく、自然界(医学、生物学)や社会(品質管理)でよくあてはまるからである。
その判定法として知られるスミルノフ・グラブス検定は、この正規分布を仮定して、
(最大値−平均)/標準偏差 >(ある)定数
なら、この最大値は外れ値と判定するものである。
ここで定数は、稀さの度合(「有意水準」という)やデータの数字の個数(サンプル・サイズ)から決まり、有意水準が1%(0.01)、個数が23なら、2.96程度である。
GPTデータで、正規分布を仮定して、最大値33を試してみよう。このデータでは、
平均= 12.478、標準偏差= 6.487
だから
(33 − 12.478)/6.478 = 3.164
そして、3.164は2.96を超えているので、33は外れ値と判定される。
したがって、33はこの母集団(もとの集団)からもたらされたのではない異質な数字との疑いが出る。
33はどのような患者なのか医学的によく検討し、結果として33を外すのが妥当なら、全体のデータから除外される。
いずれにせよ、「外れ値」だから、ただちに外すというのではない。
外れ値でないケース
正規分布を仮定しない場合は、外れ値のように見えても外れ値でないことも多い。
たとえば、所得の「長者番付」での最大所得は群を抜いて大きいが、外れ値とはいえないであろう。
これは所得が正規分布のルールに従わず、しばしば「対数正規分布」に従うとされていることから起こっている。
対数正規分布ではかなり大きい値が出ることがよく起きるのである。
実際に除外するにせよ、しないにせよ、外れ値の判定は、いったんは取られたデータを「無視する」ことに通じているので、環境問題などの社会問題では慎重な取り扱いが必要である。
ことに、スミルノフ・グラブス検定は、正規分布を仮定した方法であるので、この前提が疑わしいときには、適用することができない。
関連リンク