欠測データ|【統計学・統計解析講義応用】
欠測データ
臨床研究における欠測データ(missing data)に生じる重要な問題を示す.
我々は,異なる種類の欠測データと,解析においてそれらを扱うための方法の概略を議論する.
欠測データは臨床探索の場で多くの理由から生じる.
被験者は,試験への関心を失う,臨床の現場から引っ越す,あるいは試験の完了を妨げる健康上のイベントが発生する,といった理由で試験の途中で脱落する.
欠測データはまた,難しい検査法における検査の失敗,臨床検体の汚染,そして評価の欠落を生むことになるプロトコールの逸脱などの技術操作上の理由からも発生し得る.
観察データでは無応答が懸念される.
調査サンプリングでは.返却されなかった調査票もしくはスキップされた設問項目がデータ欠落の一般的な理由である.
欠測データには問題が多い.計画よりも少ない観測数になるため,少なくともこれらは試験で有意な結果を得るための検出力を低下させる.
さらにたちの悪い問題は,特に欠測データの生じる理由あるいは割合が群によって異なる場合,欠測データはランダム化を崩し群間の比較可能性を損なう可能性があることである.
最悪の場合,大量の欠測データが誤った結論を導くことがある.
欠測データを扱うための解析手法がいくらか存在するが,欠測したデータを消去するほど効果的な統計モデルはなく,それらの成果はどれだけモデルに対する仮定が妥当であるかにかかっている.
欠測データの種類
Rubinは,異なる解析アプローチの要求に応じた欠測データのための用語を提示している.欠測データは以下の種類に分類することができる.
・完全にランダムな欠測(Missing completely at random, MCAR):この種類の欠測が生じるメカニズムは,観測されるだろう応答の値と無関係である.
MCARデータは,事例をあげれば冷凍庫の故障,臨床検査室での検体の破損,被験者がその地域から引っ越した後に試験から脱落した,といったことから生じる.
MCARは非系統的であるということを意味しないことに注意して欲しい.
例えば,壊れた冷凍庫は試験のある週のすべてのデータを抹消してしまう可能性がある.
しかし,この種類の欠測は無視しても系統的バイアスを混入させることはない.
・ランダムな欠測(Missing at random, MAR):欠測応答と無関係であると示しているように見えるこの不運な用語は,実際には我々が観測したデータを考慮すれば欠測は結果とは無関係であるということを意味する.
主要な応答変数である体重の変化が,ランダム化の後に30日間測定される試験を考えてみよう.
30日目においてある被験者が不在となるといった事態が,彼が体重が増加していることを恥じたことによって起こるかもしれない.
その欠測は30日目の結果に関連するが,もし我々が29日目まで日々観察された彼の体重の軌跡から推測できるのであれば,それはMARである.
MARに関するもう1つの考え方は,同じベースライン値と中間値を持つ2人の被験者について考慮することである.
もし2人のうち1人の応答が欠測した場合でも,彼の欠測値はもう1人で観測されている応答と似ているはずであるということをMARの仮定は暗に示す.
MARデータを持つ被験者を除くことは,深刻なバイアスを引き起こす可能性がある.
体重減量試験の例では,それは悪化している被験者を除くことになる.
・無視できないまたはランダムでない欠測(Non-ignorable or missing not at random, MNAR):もし我々が観測したすべてのデータを考慮したとしても,データが欠測であることの確率が観測されない応答に依存するのであれば,それは無視できない欠測データである.
先ほど引用した体重減量試験を,体重の測定は例えば2週毎のようにずっと少ない頻度で行われるものとして考えてみよう.
もし被験者の成績が最後の10日間のみにおいて悪くなり始めるのであれば,第2週の測定値は体重減少の低下を反映することはなく,そして我々は応答が欠測するかどうかの予測をすることはできなくなる.
脱落の理由が未知の場合,それを統計モデルで明確に調整することは不可能になる.
プラセボ群と治験治療群とで脱落の理由が異なることは,両者の比較可能性を壊してしまう.
欠測データの理由がわからないことは頻繁にあるので,異なる可能性を持つ欠測データに対して試験結果の感度を調べるための解析は考慮されなければならない.
関連記事