不完全なデータの謎: 解析と仮定【ChatGPT統計解析】
データ解析では、多くのデータが不完全であり、この不完全性の背後にある機構を理解することが重要です。不完全データは、回答が得られなかった欠測データ、無回答データ、打ち切りデータ、脱落データなど様々です。欠測がランダムに起こるかどうかによって、MCAR(完全にランダムな欠測)またはMAR(ランダムな欠測)の仮定があります。不完全データの取り扱いには複数の方法があり、欠測部分を埋める、完全データのみを使用する、モデルを仮定するなどが含まれます。選択される対処方法は、データが不完全となる機構の仮定に依存し、この仮定を明確にすることが分析の正確性を保証します。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 不完全なデータの謎: 解析と仮定【ChatGPT統計解析】
不完全データ(欠損データ)とは
データ解析においてデータがすべて得られていないとき、得られなかった部分を含むデータ全体を「不完全データ(欠損データ)」といいます。
実際のデータのほとんどは不完全データであると考えられます。
例えば、標本調査において、すべての個体から100%の回答が得られるとは考えられません。
このとき、無回答を含む調査結果のデータは不完全データです。
不完全データには、以下の例があります。
@欠測を含むデータ:実験において実験機器の不具合から観測値が得られなかった。実験機器の不具合はランダムに起こり、実験内容との関係はない、など。
A無回答を含むデータ:世帯の調査票において「年間収入」のみが無回答であった。世帯主が現在無職であり、「年間収入」が低いことを理由に回答しなかった。
B打ち切りデータ:無職の人が職を失ってから調査時点までの期間を求職期間として記入した。職に就くまでを求職期間と考えるならば、求職期間は完了していない。
C脱落データ:同じ調査対象へ毎年1回調査を行うパネル調査において、過去すべての調査に回答している人から回答が得られなった。その理由は不明である。
D血液型検査でA型であると判定された。しかし、AA型か、AO型かの区別については検査ではわからない。
不完全データは多種多様であり、観測値が得られないような「欠測を含むデータ」や「無回答を含むデータ」、「打ち切りデータ」、「脱落データ」のほかに、完全データにおけるカテゴリーが併合された「グループ化されたデータ」なども含みます。
データが不完全となる機構:MCARの仮定
不完全データとなるには何らかの原因があります。
この原因を規定するような機構を「データが不完全となる機構」とよびます。
不完全データが欠測を含むデータの場合は、この機構は「欠測機構」とよばれます。
データが不完全となる機構には2つの重要な仮定があります。
実験機器の不具合は、実験結果とまったく関係なくランダムに起こります。
このため、「データが不完全となる機構は完全にランダムである」と仮定することができます。
これをMCAR(missing completely at random)またはMAR(missing at random)の仮定といいます。
いま、観測データをYobs、欠測データをYmis、欠測と観測の別を表す指標関数をRとおくと、
MCARの仮定は、観測データにも欠測データにも影響を受けないため、
関数式は、f(R|Yobs, Ymis)=f(R)と表すことができます。
一方、無回答となる原因は、例では「年間収入」が低いことです。
つまり、データが不完全になるのは完全にランダムであるとは考えられません。
そこで、世帯主の職業別に「年間収入」の項目に回答した世帯と回答しなかった世帯の「年間収入」の分布が同様であると仮定した場合には、観測データである世帯主の職業という条件のもとで「データが不完全となる機構はランダムである(MAR)」と考えることができます。
もちろん、無回答となった個体の「年間収入」はわからないため、MARは仮定にすぎません。
MARの仮定は、f(R|Yobs, Ymis)=f(R|Yobs)と表すことができます。
データが不完全となる機構は、その内容が判明している場合があります。
例えば、「打ち切りデータ」の例では、調査時点で完了していない求職期間は、調査で得られた期間以上となることがわかっているため、データが不完全となる機構は既知です。
不完全データへの対処方法
分析者は、不完全データへの対処を施したのち、データ解析を実施しなければなりません。
不完全データへの対処方法は、データの性質やデータが不完全になった原因によって異なるため、確立された方法は存在しません。
欠測データを不完全データの例として以下の対処方法を説明します。
@完全データ部分のみを使用する方法:1箇所でも欠測のある個体は除いて、欠測の全くない完全データに変形してから解析を行います。
データが不完全となる機構がMCARの仮定のもとでは、分析結果に偏りは生じません。
A擬似的な完全データを作成する方法:欠測部分に値を割り当てて、擬似的な完全データを作成します。
例えば「脱落データ」の例において、回答が得られなかった人の無回答部分に、これまでに得られている回答や属性などとよく似た他の人の回答を当てはめて完全データにします。
総務省統計局の全国消費実態調査では、年間収入が不詳の世帯について、世帯主の職業、消費支出額、世帯主の年齢、有業人員を説明変数とした回帰による推定を実施し、予測値を用いて完全データを作成しています。
この方法の利点は、完全データと同様にさまざまな集計や分析を実施することができる点にあります。
Bモデルを仮定する方法:適切なモデルを仮定したもとで分析を行う方法であり、不完全データに係わる状況もモデル化して分析を行います。
生存時間分析におけるカプランマイヤー法やコックス比例ハザード回帰モデルは、打ち切りも考慮したモデルを仮定した手法です。
データが不完全となる機構がMCARやMARでない場合でも、機構をモデル化することによって対応することができます。
不完全データへの対処方法選択
データが不完全となる機構に関する仮定を定めることは、不完全データへの対処方法選択における最も重要な過程です。
分析者は、どのような対処方法を選択するにせよ、データが不完全となる機構の仮定を明確に記述しておく必要があります。
なぜなら、不完全データに関する分析結果は、データが不完全となる機構の仮定によって異なるからです。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
不完全データへの対処方法について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
不完全データ、つまり一部の情報が足りない場合の対処方法にはいくつかあります。大切なのは、データが不完全でもできるだけ正確な分析をすることです。
削除: 足りない情報があるデータは使わずに、完全なデータだけを使います。簡単ですが、大切な情報を失う可能性があります。
平均値で埋める: 足りない部分をその変数の平均値で埋めます。単純で使いやすい方法ですが、実際のばらつきを無視することになるため、注意が必要です。
予測モデル: 他のデータから、足りない情報を予測して埋めます。より精度の高い方法ですが、モデルの選び方が重要です。
多重代入: 足りない部分を何通りかの推測値で埋めて、複数回分析します。それぞれの結果を平均することで、不確実性を考慮した分析が可能になります。
どの方法を選ぶかは、データの量、足りない情報の種類、分析の目的によって異なります。不完全なデータには挑戦が伴いますが、これらの方法を上手く使うことで、より信頼性の高い結論に近づけます。