統計学の欠測値:処理と推定法の秘訣【ChatGPT統計解析】
統計学における欠測値(missing values)は、データの一部が測定されなかったことを指します。その原因は多岐にわたり、測定機会の欠如、災害、測定忘れ、回答拒否などがあります。欠測値があると計算が難しくなるため、適切な処理が必要です。主な方法は2つあります。1つ目は欠測値の部分を除外する方法で、ケースワイズ除去(特定の回答者全体を除外)やリストワイズ除去(特定の質問全体を除外)が含まれます。2つ目は欠測値を推定する方法で、周辺データの傾向から推測して補充します。特に時系列データでは有効です。どちらの方法でも、欠測値が分析に与える影響を最小限に抑える工夫が求められますが、完全に回復することはできません。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学における欠測値(missing values)
欠測値のあるデータの扱い方
「欠測値」ということばは誤解を招く。
本来あるべき値が測られていない、欠けていることを指すのだから、本来むしろ「値の欠測」というべきだろう。
英語ではmissing valuesで、missingとは「欠けている」を意味する。
値が測られていない理由はいろいろある。
測る装置器具がなかった、機会がなかった、測定する人がいなかった、測定が不可能な状態(戦争、災害などで)があった、必要がなかったが後に必要となった、さらにうっかり測り忘れ、などまである。
また社会調査では回答拒否も欠測値となる。
欠測値はデータの空白欄であるから、このまま計算することはできず、無理にコンピュータに入力すればエラーを引き起こす。
値の欠測自体は決して回復できないので、分析自体をあきらめるのでなければ、何らかの方法を講じないかぎり前へ進めない。
大別して2つの方法がある。
欠測値のある部分を外す
欠測値がある部分を「最小限」分析から外すほかない。
この場合「部分」にはいくつか場合がある。
社会調査のデータでは、多数の質問に対する多くの回答者(ケースといわれる)の回答がデータとなっているので、「部分」の考え方から次のようにする。
@Aのすべての回答を分析から外す。この場合、Aは見かけ上当初から調査されなかったことになる。この扱いは、たとえば「年齢」と「住居の広さ」の関係を調べるとき、相関係数の計算のように両回答数が揃わなければ、分析に不都合となる場合などである(ケースワイズ除去)。
A「住居の広さ」の回答を、他の回答者のものも含めてすべて分析から外す。この場合、この質問は当初からたずねられなかったこととなる。この理由は上と同じであるが、除去の影響は小さくない。(リストワイズ除去)。
B「住居の広さ」の分析のときだけ、Aを分析から外す。他の質問がかかわってこないなら、これが可能である。
コンピュータ分析の実際では、欠測値にコンピュータが指定する特殊数字を入力し(ふつうには起きえない数字-999999など)、それを欠測値の符号とする。
決して0としないこと。
上記@、A、Bをオプションで指定する。
これらの方法では欠測値の個数が多いと除外が多くなり、影響が大きい。
欠測値が生じないよう、あらかじめ調査段階で工夫する必要がある。
欠測値を推定する
もし、測定すればどのような数となったかが欠測値の周辺の傾向、ルールから推し測れる(推定できる)場合なら、空白を補充できる。
ただし、それができる少数の場合に限られる。
社会調査ではほとんど不可能であろう。
時系列データなら可能なこともある。
二酸化炭素濃度データでは、1年の中で、月次で追ってゆくと、上昇下降が交錯して、2、3、4月の値を推定するには不確実性が大きいが、3個の1月データ、5月データ、・…・・と見ていくと、同月の中では、一貫して小幅に上昇している。この上昇を直線的と見て、欠測値の上、下の2値の平均を欠測値の推定値とする工夫が可能である。
もちろん、これはあくまで推定された数字である。
測定されなかったことは回復できない。
他のデータでは、さらに工夫された方法(回帰分析など)が可能であろう。
いずれにせよ、欠測値の処理は、データ分析をはじめる前の、理論以前のアイデアで対処するしか方法がない。
関連リンク