統計モデルの乱用|【統計学・統計解析講義応用】
統計モデルの乱用
回帰は,最も単純な形式においては,直線をデータに当てはめることになる。
つまり,データから結果を最もうまく予測できる直線の方程式を見つけることになるのだ。
この方程式によって, BMIのような測定されたものを使って,血圧や医療費のような結果を予測できる。
通常,回帰では2つ以上の予測変数が用いられる。
BMIだけを用いるのではなく,年齢や性別,普段の運動量などを追加して用いることもあるだろう。
患者の代表的標本から医療に関するデータを一旦集めれば,回帰の手法により,データを使って予測変数と結果との間の関係を表す最も良い方程式を見つけることができる。
複数の変数を含む回帰は,研究中の交絡因子を統制(control)することを可能にする。
例えば,クラスの人数が少ないほどテストの点数が良くなるという仮説のもとで,クラスの人数が標準化テストでの生徒の成績に与える影響について研究したいとしよう。
回帰を使って人数と点数の関係を見つけ,クラスの人数が少なくなるほどテストの点数が上がるかを検定することができるだろう。
だが,交絡変数(confounding variable)がある。
関係を見いだした場合,そこからクラスの人数が原因だと説明するかもしれないが,原因はクラスの人数と点数の両方に影響を与える別種の要因である可能性もある。
もしかしたら,予算が多い学校ほど多くの教員を雇うお金があってクラスの人数が少なくなるのかもしれない。
そういった学校ほど,本を多く買うことができ,教員に高い給料を出すことができ,サポートする職員を多くすることができ,理科室を良くすることができ,その他生徒の学習に役立つものを手に入れることができるような金銭的余裕ができる。
クラスの人数はもしかしたら何の影響も及ぼしていないかもしれない。
この交絡変数を統制するためには,各学校の総予算を記録して,それを回帰方程式に含める必要がある。
そうすれば,予算の効果をクラスの人数から引き離すことができる。
もし似たような予算でクラスの人数が違う学校を調べれば,回帰の手続きによって,「同じ予算の学校について,クラスの人数が1人増えるごとにテストの点数がこれだけたくさん下がる」といった方程式を出すことができる。
交絡変数はこのようにして統制される。
もちろん,気づいていない交絡変数やどうやって測定するのか分からない交絡変数があって,それらが結果に影響することはあるかもしれない。
すべての交絡変数を消し去ることができるのは,真にランダム化された実験だけだ。
ここで紹介した簡単なもののほかに,回帰にはもっとたくさんの種類のものがある。
2つの変数の間の関係が単純な一次方程式で示せないことはしばしばあるし,結果変数が血圧やテストの点数のように量的に測れるものではなく,カテゴリーに分かれるものであることもある。
患者の年齢や血圧,その他の生命徴候から,患者が手術後に合併症を発症するかを予測したい場合があるかもしれない。
こうした可能性を説明する手法にはさまざまなものがある。
ただ,どんな種類の回帰でも,共通した問題をかかえている。
まずは最も単純な問題で,データ分析での過度の熱意によってもたらされる,過剰適合についての話から始めよう。
関連記事