Python・R・エクセルによるデータサイエンス | 統計解析講義

不完全データの統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

不完全データの統計学【統計解析講義基礎】

不完全データの統計学【統計解析講義基礎】


不完全データの統計学【統計解析講義基礎】

 

データ解析においてデータがすべて得られていないとき、得られなかった部分を含むデータ全体を「不完全データ」といいます。

 

実際のデータのほとんどは不完全データであると考えられます。

 

例えば、標本調査において、すべての個体から100%の回答が得られるとは考えられません。

 

このとき、無回答を含む調査結果のデータは不完全データです。

 

不完全データには、以下の例があります。

 

@欠測を含むデータ:実験において実験機器の不具合から観測値が得られなかった。実験機器の不具合はランダムに起こり、実験内容との関係はない、など。

 

A無回答を含むデータ:世帯の調査票において「年間収入」のみが無回答であった。世帯主が現在無職であり、「年間収入」が低いことを理由に回答しなかった。

 

B打ち切りデータ:無職の人が職を失ってから調査時点までの期間を求職期間として記入した。職に就くまでを求職期間と考えるならば、求職期間は完了していない。
C脱落データ:同じ調査対象へ毎年1回調査を行うパネル調査において、過去すべての調査に回答している人から回答が得られなった。その理由は不明である。

 

D血液型検査でA型であると判定された。しかし、AA型か、AO型かの区別については検査ではわからない。

 

不完全データは多種多様であり、観測値が得られないような「欠測を含むデータ」や「無回答を含むデータ」、「打ち切りデータ」、「脱落データ」のほかに、完全データにおけるカテゴリーが併合された「グループ化されたデータ」なども含みます。

 

データが不完全となる機構

 

不完全データとなるには何らかの原因があります。

 

この原因を規定するような機構を「データが不完全となる機構」とよびます。

 

不完全データが欠測を含むデータの場合は、この機構は「欠測機構」とよばれます。

 

データが不完全となる機構には2つの重要な仮定があります。

 

実験機器の不具合は、実験結果とまったく関係なくランダムに起こります。

 

このため、「データが不完全となる機構は完全にランダムである」と仮定することができます。

 

これをMCARの仮定といいます。

 

いま、観測データをYobs、欠測データをYmis、欠測と観測の別を表す指標関数をRとおくと、

 

MCARの仮定は、観測データにも欠測データにも影響を受けないため、

 

関数式は、f(R|Yobs, Ymis)=f(R)と表すことができます。

 

一方、無回答となる原因は、例では「年間収入」が低いことです。

 

つまり、データが不完全になるのは完全にランダムであるとは考えられません。

 

そこで、世帯主の職業別に「年間収入」の項目に回答した世帯と回答しなかった世帯の「年間収入」の分布が同様であると仮定した場合には、観測データである世帯主の職業という条件のもとで「データが不完全となる機構はランダムである(MAR)」と考えることができます。

 

もちろん、無回答となった個体の「年間収入」はわからないため、MARは仮定にすぎません。

 

MARの仮定は、f(R|Yobs, Ymis)=f(R|Yobs)と表すことができます。

 

データが不完全となる機構は、その内容が判明している場合があります。

 

例えば、「打ち切りデータ」の例では、調査時点で完了していない求職期間は、調査で得られた期間以上となることがわかっているため、データが不完全となる機構は既知です。

 

不完全データの対処方法

 

分析者は、不完全データへの対処を施したのち、データ解析を実施しなければなりません。

 

不完全データへの対処方法は、データの性質やデータが不完全になった原因によって異なるため、確立された方法は存在しません。

 

欠測データを不完全データの例として以下の対処方法を説明します。

 

@完全データ部分のみを使用する方法:1箇所でも欠測のある個体は除いて、欠測の全くない完全データに変形してから解析を行います。

 

データが不完全となる機構がMCARの仮定のもとでは、分析結果に偏りは生じません。

 

A擬似的な完全データを作成する方法:欠測部分に値を割り当てて、擬似的な完全データを作成します。

 

例えば「脱落データ」の例において、回答が得られなかった人の無回答部分に、これまでに得られている回答や属性などとよく似た他の人の回答を当てはめて完全データにします。

 

総務省統計局の全国消費実態調査では、年間収入が不詳の世帯について、世帯主の職業、消費支出額、世帯主の年齢、有業人員を説明変数とした回帰による推定を実施し、予測値を用いて完全データを作成しています。

 

この方法の利点は、完全データと同様にさまざまな集計や分析を実施することができる点にあります。

 

Bモデルを仮定する方法:適切なモデルを仮定したもとで分析を行う方法であり、不完全データに係わる状況もモデル化して分析を行います。

 

生存時間分析におけるカプランマイヤー法やコックス比例ハザード回帰モデルは、打ち切りも考慮したモデルを仮定した手法です。

 

データが不完全となる機構がMCARやMARでない場合でも、機構をモデル化することによって対応することができます。

 

対処方法の選択

 

データが不完全となる機構に関する仮定を定めることは、不完全データへの対処方法選択における最も重要な過程です。

 

分析者は、どのような対処方法を選択するにせよ、データが不完全となる機構の仮定を明確に記述しておく必要があります。

 

なぜなら、不完全データに関する分析結果は、データが不完全となる機構の仮定によって異なるからです。

セミナー詳細こちら                    解析ご相談こちら


 

不完全データの統計学【統計解析講義基礎】

不完全データの統計学【統計解析講義基礎】

不完全データの統計学【統計解析講義基礎】