統計学における欠測値|【統計学・統計解析講義基礎】
統計学における欠測値(missing values)
欠測値のあるデータの扱い方
「欠測値」ということばは誤解を招く。
本来あるべき値が測られていない、欠けていることを指すのだから、本来むしろ「値の欠測」というべきだろう。
英語ではmissing valuesで、missingとは「欠けている」を意味する。
値が測られていない理由はいろいろある。
測る装置器具がなかった、機会がなかった、測定する人がいなかった、測定が不可能な状態(戦争、災害などで)があった、必要がなかったが後に必要となった、さらにうっかり測り忘れ、などまである。
また社会調査では回答拒否も欠測値となる。
欠測値はデータの空白欄であるから、このまま計算することはできず、無理にコンピュータに入力すればエラーを引き起こす。
値の欠測自体は決して回復できないので、分析自体をあきらめるのでなければ、何らかの方法を講じないかぎり前へ進めない。
大別して2つの方法がある。
欠測値のある部分を外す
欠測値がある部分を「最小限」分析から外すほかない。
この場合「部分」にはいくつか場合がある。
社会調査のデータでは、多数の質問に対する多くの回答者(ケースといわれる)の回答がデータとなっているので、「部分」の考え方から次のようにする。
@Aのすべての回答を分析から外す。この場合、Aは見かけ上当初から調査されなかったことになる。この扱いは、たとえば「年齢」と「住居の広さ」の関係を調べるとき、相関係数の計算のように両回答数が揃わなければ、分析に不都合となる場合などである(ケースワイズ除去)。
A「住居の広さ」の回答を、他の回答者のものも含めてすべて分析から外す。この場合、この質問は当初からたずねられなかったこととなる。この理由は上と同じであるが、除去の影響は小さくない。(リストワイズ除去)。
B「住居の広さ」の分析のときだけ、Aを分析から外す。他の質問がかかわってこないなら、これが可能である。
コンピュータ分析の実際では、欠測値にコンピュータが指定する特殊数字を入力し(ふつうには起きえない数字-999999など)、それを欠測値の符号とする。
決して0としないこと。
上記@、A、Bをオプションで指定する。
これらの方法では欠測値の個数が多いと除外が多くなり、影響が大きい。
欠測値が生じないよう、あらかじめ調査段階で工夫する必要がある。
欠測値を推定する
もし、測定すればどのような数となったかが欠測値の周辺の傾向、ルールから推し測れる(推定できる)場合なら、空白を補充できる。
ただし、それができる少数の場合に限られる。
社会調査ではほとんど不可能であろう。
時系列データなら可能なこともある。
二酸化炭素濃度データでは、1年の中で、月次で追ってゆくと、上昇下降が交錯して、2、3、4月の値を推定するには不確実性が大きいが、3個の1月データ、5月データ、・…・・と見ていくと、同月の中では、一貫して小幅に上昇している。この上昇を直線的と見て、欠測値の上、下の2値の平均を欠測値の推定値とする工夫が可能である。
もちろん、これはあくまで推定された数字である。
測定されなかったことは回復できない。
他のデータでは、さらに工夫された方法(回帰分析など)が可能であろう。
いずれにせよ、欠測値の処理は、データ分析をはじめる前の、理論以前のアイデアで対処するしか方法がない。
関連リンク