Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における欠測値と外れ値【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における欠測値と外れ値【統計解析講義基礎】

統計学における欠測値と外れ値【統計解析講義基礎】


統計学における欠測値と外れ値【統計解析講義基礎】

 

調査や実験を行う際には想定された値以外が発生しないように取り組むことが重要です。

 

しかし、記入ミスや回答者、測定者の誤解により想定外の観測値が得られる場合があります。

 

さらに得られたデータで一部の観測値がないもの、他の観測値と比べて大きく数値が異なるものなど、そのまま分析すると適切でない観測値が含まれる場合があります。
この場合、前者を欠測値、後者を外れ値として考え、それぞれデータ分析の前処理を行う必要があります。

 

想定外の測定値、欠測値とその対応

 

調査や実験を行うと調査票等の不備や回答者の誤解などもあり、想定されていない回答や無回答などが生じます。

 

想定外の回答も多種多様なためその処理は決定的な方法はありません。

 

しかし、標本の大きさなども踏まえ、いくつか方法は考えられます。

 

例えば、すべての回答者がすべて想定内の回答になっている観測値のみを分析対象とし、それ以外は分析からはずす方法、使える設問のみ、部分的に利用する、などがあげられます。

 

前者は標本の大きさが小さくなることから調査の信頼性を踏まえ検討する必要があり、後者は各設問の標本の大きさが異なることもあるため、設問間の関係を議論する場合には注意が必要です。

 

調査や実験の結果、データが得られなかった場合にその観測値を「欠測値」とよびます。

 

例えば、世帯収入を聞いた質問の場合、答えたくなく、あえて未記入で調査票を提出するケースもあり、この場合に欠測値が生じます。

 

この場合に、欠測のデータが最初からないものとして分析を行うと所得の分布が低めに偏ってしまう可能性があるため注意が必要です。

 

欠測値は発生の状況から完全にランダムに発生していると考えられる場合は、欠測値となる観測値自体を削除したり、欠測値を平均値で置き換えたりする方法などの処理があります。

 

また欠測している情報を観測されている他の項目で補うことができる欠測値もあります。

 

この場合は、各変量間の関係を踏まえ、欠測値代入法やEMアルゴリズムを利用した推定方法、傾向スコアによる調整法などがあります。

 

近年統計ソフトウェアでもこれらの手法は可能になってきています。

 

外れ値とその対応

 

結婚したい年齢をたずねるときに「80歳」と回答があった場合、回答者の本心はわからないため適切でない回答とは必ずしもいえません。

 

少なくとも多くの回答者は20〜40歳内に含まれる中、明らかに他の回答者とはかけ離れた回答といえるでしょう。

 

このような観測値を「外れ値」といいます。

 

ただしどのような基準で観測値を外れ値とするかは調査や実験の実施背景や状況により、それぞれを検証する必要があります。

 

1変量のデータの場合、中央値や四分位数を用いた「箱ヒゲ図」で外れ値を検出する方法があります。

 

この方法では、図1のように箱の上底(75%点)、下底(25%点)から箱の長さ「四分位範囲」×1.5よりも離れている観測値を「特異値」とよびます。

 

この方法では、分布が対称の場合には有用ですが、分布がひずんでいる場合は、多めに外れ値を検出することがあるため、注意が必要です。

 

また統計的検定を用いて有意な外れ値を考える「Smirnov-Grubbs」の検定を行う方法もあります。

 

データの分布が正規分布にしたがうことが仮定されているとき、平均値±3×標準偏差の中には理論的にはデータ全体のおよそ99.7%が入ることから、平均値と標準偏差で表す箱ヒゲ図を用いて、平均値±3×標準偏差よりも平均値から離れている場合に外れ値とすることがあります。

 

いくつかの注意

 

1変量のデータで、上記の箱ヒゲ図の方法などで外れ値が検出されない場合でも複数の変量を同時に扱うときには注意が必要です。

 

例えば2変量の場合、散布図をみて2変量の分布の関係を検証することが可能であることから、散布図をみながらデータ全体を検証し、外れ値を検出することもあります。

 

図2のように横軸、縦軸のそれぞれの変量ではさほど他の観測値とかけ離れている観測値はありません。しかし、2つの変量を同時にみると左上の観測値は明らかにデータ全体の分布から外れていることがいえます。

 

この観測値を含めたまま相関係数などの統計量を求めるとその影響を受け、適切な分析が求められないこともあります。

 

欠測値や外れ値はどちらにしても単に機械的に削除するものではなく、どのようにしてそのような値が得られたのかを考えることが重要です。

 

回答がなかったからや他の回答とかけ離れているから分析対象としないとするのではなく、その対処の理由を考える必要があります。

 

また検証の結果、該当の観測値を取り除く場合にも第三者にもわかる形で記録に残すことが大切です。

セミナー詳細こちら                    解析ご相談こちら


 

統計学における欠測値と外れ値【統計解析講義基礎】

統計学における欠測値と外れ値【統計解析講義基礎】

統計学における欠測値と外れ値【統計解析講義基礎】