統計学における欠測値【統計解析講義基礎】

統計学における欠測値【統計解析講義基礎】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

統計学における欠測値|【統計学・統計解析講義基礎】

統計学における欠測値【統計解析講義基礎】


目次  統計学における欠測値【統計解析講義基礎】

 

 

統計学における欠測値(missing values)

 

欠測値のあるデータの扱い方

 

「欠測値」ということばは誤解を招く。

 

本来あるべき値が測られていない、欠けていることを指すのだから、本来むしろ「値の欠測」というべきだろう。

 

英語ではmissing valuesで、missingとは「欠けている」を意味する。

 

値が測られていない理由はいろいろある。

 

測る装置器具がなかった、機会がなかった、測定する人がいなかった、測定が不可能な状態(戦争、災害などで)があった、必要がなかったが後に必要となった、さらにうっかり測り忘れ、などまである。

 

また社会調査では回答拒否も欠測値となる。

 

欠測値はデータの空白欄であるから、このまま計算することはできず、無理にコンピュータに入力すればエラーを引き起こす。

 

値の欠測自体は決して回復できないので、分析自体をあきらめるのでなければ、何らかの方法を講じないかぎり前へ進めない。

 

大別して2つの方法がある。

 

欠測値のある部分を外す

 

欠測値がある部分を「最小限」分析から外すほかない。

 

この場合「部分」にはいくつか場合がある。

 

社会調査のデータでは、多数の質問に対する多くの回答者(ケースといわれる)の回答がデータとなっているので、「部分」の考え方から次のようにする。

 

@Aのすべての回答を分析から外す。この場合、Aは見かけ上当初から調査されなかったことになる。この扱いは、たとえば「年齢」と「住居の広さ」の関係を調べるとき、相関係数の計算のように両回答数が揃わなければ、分析に不都合となる場合などである(ケースワイズ除去)。

 

A「住居の広さ」の回答を、他の回答者のものも含めてすべて分析から外す。この場合、この質問は当初からたずねられなかったこととなる。この理由は上と同じであるが、除去の影響は小さくない。(リストワイズ除去)。

 

B「住居の広さ」の分析のときだけ、Aを分析から外す。他の質問がかかわってこないなら、これが可能である。

 

コンピュータ分析の実際では、欠測値にコンピュータが指定する特殊数字を入力し(ふつうには起きえない数字-999999など)、それを欠測値の符号とする。

 

決して0としないこと。

 

上記@、A、Bをオプションで指定する。

 

これらの方法では欠測値の個数が多いと除外が多くなり、影響が大きい。

 

欠測値が生じないよう、あらかじめ調査段階で工夫する必要がある。

 

 

欠測値を推定する

 

もし、測定すればどのような数となったかが欠測値の周辺の傾向、ルールから推し測れる(推定できる)場合なら、空白を補充できる。

 

ただし、それができる少数の場合に限られる。

 

社会調査ではほとんど不可能であろう。

 

時系列データなら可能なこともある。

 

二酸化炭素濃度データでは、1年の中で、月次で追ってゆくと、上昇下降が交錯して、2、3、4月の値を推定するには不確実性が大きいが、3個の1月データ、5月データ、・…・・と見ていくと、同月の中では、一貫して小幅に上昇している。この上昇を直線的と見て、欠測値の上、下の2値の平均を欠測値の推定値とする工夫が可能である。

 

もちろん、これはあくまで推定された数字である。

 

測定されなかったことは回復できない。

 

他のデータでは、さらに工夫された方法(回帰分析など)が可能であろう。

 

いずれにせよ、欠測値の処理は、データ分析をはじめる前の、理論以前のアイデアで対処するしか方法がない。          

 

 

統計学における欠測値【統計解析講義基礎】


セミナー詳細                    解析ご相談                    LINEでお友達

統計学における欠測値【統計解析講義基礎】

統計学における欠測値【統計解析講義基礎】