データの宝石箱: 欠測値と外れ値の探究【ChatGPT統計解析】
調査や実験では、記入ミスや回答者の誤解などにより想定外のデータ、すなわち欠測値や外れ値が発生することがあります。欠測値は、回答がないデータのことで、外れ値は他のデータと大きく異なる値のことを指します。これらの値を分析にそのまま含めると、誤った結論を導く可能性があるため、適切な前処理が必要です。外れ値は検定や箱ヒゲ図を用いて検出可能ですが、欠測値や外れ値を単に機械的に処理するのではなく、その発生理由を考慮することが重要です。また、データの扱い方については、標本の大きさや調査の信頼性を考えながら、分析からの除外や部分的な利用など様々な方法が考えられます。欠測値には平均値で置き換えるなどの方法があり、外れ値の場合はその理由を考え、適切に処理する必要があります。データの前処理は、適切な統計解析を行うために不可欠であり、処理の方法と理由を記録しておくことが大切です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
欠測値と外れ値
調査や実験を行う際には想定された値以外が発生しないように取り組むことが重要です。
しかし、記入ミスや回答者、測定者の誤解により想定外の観測値が得られる場合があります。
さらに得られたデータで一部の観測値がないもの、他の観測値と比べて大きく数値が異なるものなど、そのまま分析すると適切でない観測値が含まれる場合があります。
この場合、前者を欠測値、後者を外れ値として考え、それぞれデータ分析の前処理を行う必要があります。
調査や実験を行うと調査票等の不備や回答者の誤解などもあり、想定されていない回答や無回答などが生じます。
想定外の回答も多種多様なためその処理は決定的な方法はありません。
しかし、標本の大きさなども踏まえ、いくつか方法は考えられます。
例えば、すべての回答者がすべて想定内の回答になっている観測値のみを分析対象とし、それ以外は分析からはずす方法、使える設問のみ、部分的に利用する、などがあげられます。
前者は標本の大きさが小さくなることから調査の信頼性を踏まえ検討する必要があり、後者は各設問の標本の大きさが異なることもあるため、設問間の関係を議論する場合には注意が必要です。
調査や実験の結果、データが得られなかった場合にその観測値を「欠測値」とよびます。
例えば、世帯収入を聞いた質問の場合、答えたくなく、あえて未記入で調査票を提出するケースもあり、この場合に欠測値が生じます。
この場合に、欠測のデータが最初からないものとして分析を行うと所得の分布が低めに偏ってしまう可能性があるため注意が必要です。
欠測値は発生の状況から完全にランダムに発生していると考えられる場合は、欠測値となる観測値自体を削除したり、欠測値を平均値で置き換えたりする方法などの処理があります。
また欠測している情報を観測されている他の項目で補うことができる欠測値もあります。
この場合は、各変量間の関係を踏まえ、欠測値代入法やEMアルゴリズムを利用した推定方法、傾向スコアによる調整法などがあります。
近年統計ソフトウェアでもこれらの手法は可能になってきています。
検定や箱ヒゲ図による外れ値の検出
結婚したい年齢をたずねるときに「80歳」と回答があった場合、回答者の本心はわからないため適切でない回答とは必ずしもいえません。
少なくとも多くの回答者は20〜40歳内に含まれる中、明らかに他の回答者とはかけ離れた回答といえるでしょう。
このような観測値を「外れ値」といいます。
ただしどのような基準で観測値を外れ値とするかは調査や実験の実施背景や状況により、それぞれを検証する必要があります。
1変量のデータの場合、中央値や四分位数を用いた「箱ヒゲ図」で外れ値を検出する方法があります。
図のように箱の上底(75%点)、下底(25%点)から箱の長さ「四分位範囲」×1.5よりも離れている観測値を「外れ値」とよびます。
この方法では、分布が対称の場合には有用ですが、分布がひずんでいる場合は、多めに外れ値を検出することがあるため、注意が必要です。
また統計的検定を用いて有意な外れ値を考える「Smirnov-Grubbs」の検定を行う方法もあります。
データの分布が正規分布にしたがうことが仮定されているとき、平均値±3×標準偏差の中には理論的にはデータ全体のおよそ99.7%が入ることから、平均値と標準偏差で表す箱ヒゲ図を用いて、平均値±3×標準偏差よりも平均値から離れている場合に外れ値とすることがあります。
外れ値は機械的に削除せずに理由を考える
1変量のデータで、上記の箱ヒゲ図の方法などで外れ値が検出されない場合でも複数の変量を同時に扱うときには注意が必要です。
例えば2変量の場合、散布図をみて2変量の分布の関係を検証することが可能であることから、散布図をみながらデータ全体を検証し、外れ値を検出することもあります。
図のように横軸、縦軸のそれぞれの変量ではさほど他の観測値とかけ離れている観測値はありません。
しかし、2つの変量を同時にみると左上の観測値は明らかにデータ全体の分布から外れていることがいえます。
この観測値を含めたまま相関係数などの統計量を求めるとその影響を受け、適切な分析が求められないこともあります。
欠測値や外れ値はどちらにしても単に機械的に削除するものではなく、どのようにしてそのような値が得られたのかを考えることが重要です。
回答がなかったからや他の回答とかけ離れているから分析対象としないとするのではなく、その対処の理由を考える必要があります。
また検証の結果、該当の観測値を取り除く場合にも第三者にもわかる形で記録に残すことが大切です。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
欠測値や外れ値の対処について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
データ分析では、時々欠測値や外れ値に遭遇します。これらの適切な対処は、分析の正確さを保つために重要です。
欠測値:
データがない部分です。以下の方法で対処できます。
削除: 欠測値が含まれるデータを削除します。データ量が多い時に選ぶことがありますが、情報が失われる可能性があります。
平均値代入: 欠測値をその変数の平均値で埋めます。簡単ですが、データのばらつきを過小評価する可能性があります。
予測モデル: 他の変数から欠測値を予測して埋めます。より精度の高い方法ですが、計算が複雑になります。
外れ値:
データの中で極端に高い値や低い値です。以下の方法で対処できます。
確認: まずは外れ値が入力ミスや計測ミスでないか確認します。誤りであれば修正します。
除外: 外れ値をデータセットから除外します。しかし、この処理は慎重に行う必要があります。外れ値が重要な情報を含んでいる可能性もあるからです。
変換: ログ変換など、外れ値の影響を減らす数学的変換を行います。
欠測値や外れ値の対処は、分析の目的やデータの特性によって適切な方法を選ぶ必要があります。正確で信頼性の高い分析結果を得るために、これらの対処は非常に重要です。