欠損データ|【統計学・統計解析講義応用】
欠損データ
欠損(missing)データは、データ分析でよくある問題です。
しかし、欠損データがありふれているにも関わらず、この問題を扱う簡単な解があるとは限りません。
むしろ、様々な手続きややり方があり、分析者は、どの方式を採用し、どれだけの資源をこの欠損データの問題専用に割けるかを決定しなければなりません。
データの欠損には多くの理由があり、データ集合の中にその理由が記録されていると役に立ちます。
プログラムによっては、問題の変数には真の値として用いることができない負数を使ってなど、欠損データの種類を区別するために特別なデータを符号として用いることが許されていることがあります。
調査に応じた個人によっては、特定の質問への回答を拒否したり、要求された情報を持っていなかったり、質問が単に該当しないといったことがあります。
この3種類の反応に異なる符号(例えば−7、−8、−9)を割り当て、それぞれの意味をコードブックに記録することができます。
システムによっては、値ラベルを使って、符号の意味を記録できます。
欠損の種類の間に相違を設ける理由は、その情報を用いて分析をさらに進めるためです。
特定の質問に答えるのを拒否した人は、その質問への回答を知らない人と比べて性別や年齢で違いがあるかどうか調べたいと思うかもしれないからです。
欠損データには2つの大きな問題があります。
分析に使えるケースの個数を減らすので、統計能力(データにおける真の相違を探す能力)を減じるだけでなく、データにバイアスを導入する危険があります。
最初の点は、すべてが等しいなら、ケースの個数が増えるとともに統計能力が増えるという事実に基づいて、ケースの損失が能力損失に結びつきます。
第二の点の説明には、欠損データ理論を見ていく必要があります。
欠損データは伝統的に、次の3種類に分類されてきました。
完全ランダム欠損(MCAR)、ランダム欠損(MAR)、無視不可、の3種類です。
MCARは、データの一部が欠損しているという事実が、その値自身やデータ集合中の他の値に関係しないということを意味します。
これは、完全なケースがデータ集合全体からの無作為抽出と考えられるので、最も扱いやすい欠損データの部類となります。
残念ながら、実際にはMCARデータは滅多に生じません。
MARデータは、データの欠損部分が自分自身の値には関係しませんが、分析の他の変数の値に関係するものです。
家計収入に関する調査項目が完全になっていないのは、個人の教育レベルに関係する可能性があります。
無視不可は、欠損そのものがその値に関係するデータを指します。
例えば、太りすぎの人は、体重についてのデータ提供を断るかもしれず、世間から蔑まれる職業の人は、職業調査に答えない可能性があります。
この議論は実際的ではないかもしれませんが、欠損という定義からそもそも、欠損しているデータの値を知らずに、欠損データの種類がどうやってわかるでしょうか。
答えは、調査した対象についての知識とこの分野における経験から判断するしかないということです。
なぜなら、普通の統計分析手法は、完全でバイアスのないデータがあるものと仮定しているので、データ集合に多数の欠損データがある場合、自分(あるいは責任者)は、どうするかを決定しなければならないのです。
場合によっては、統計コンサルタントに相談したり、欠損データを扱うように特別に設計されたソフトウェアを使う必要があったりするかもしれません。
そのような専門家やソフトウェアがあるかどうか、また、そのための予算が確保できるかどうかが決定に絡むこともあるでしょう。
最も望ましいのは、情報源をさらに当たって欠損データを集めるように努力して、欠損データをなくすことにより問題を解決することです。
しかし、これはいつも可能とは限らず、試してみても成功するとは限りません。
第二の手段としては、SPSS MVAモジュールにあるような最大尤度法を用いて欠損データを補うことです。
あるいは、SAS PROC MIのようなプログラムの多重配分機能を用いて欠損データのための分布を生成することです。
配分プロセスは、データ中に存在する値を用いて、欠損データのための代わりの値を生成し、完全なデータ集合を作る、もしくは欠損データを置き換える配分値だけでなく、データが欠損していることを示すダミー変数を分析に含める方法もあります。
古典的な繰り返し測定モデルではなくマルチレベルを用いるなど、別の分析設計を考えることもあります。
また、分析から多量の欠損値を含むケースや変数を除くこともあります。
これは、問題が分析の中心ではない少数のケースに限られており、データがMCARでなければバイアスを導入しかねない場合にのみ妥当とされます。
利用可能な値を使って欠損値を配分する条件付き配分を用いることもあります。ただし偏差の過小評価につながるのでおすすめはできません。
最後に、欠損値に人口平均を使うような、単純配分を使って値を置き換えることもあります。ただしほとんど常に偏差の極端な過小評価につながるのでおすすめはできません。
関連記事