ダミー変数による回帰分析|【統計学・統計解析講義応用】
ダミー変数による回帰分析
喫煙を考えると、喫煙のあり、なしの2分類で考えることが多いですが、一言で「喫煙あり」と言ってもいろいろあります。
1日2―3本しか吸わない人もいれば、1日に何箱も吸う人もいます。
1日に2−3本しか吸わない人と1日に何箱も吸う人の肺がん発生リスクが同じだとは考えにくいです。
だったら、喫煙の「あり」「なし」の代わりに、1日当たりの喫煙本数を用いて回帰分析をしてみましょう。
交絡要因があってもなくても話の本質は変わらないので、交絡要因を無視して考えると、リスク差の場合、
P=α+βX
という回帰モデルで、Xが1日当たりの喫煙本数となります。
すると、喫煙本数(Xの値)が1本増えると肺がん発生リスク(Pの値)がβ増えることになります。
つまり、喫煙本数を0本から1本に増やすのと、喫煙本数を99本から100本に増やすのとで、増加する肺がん発生リスクが等しくなるのです。
これってちょっと不自然ですよね。
タバコを全然吸わないのとちょっとでも吸うのとでは多少の違いがあるかもしれませんが、1日に99本吸おうが100本吸おうが、肺がん発生リスクはきっとほとんど変わらないですよね。
でも、Xを1日当たりの喫煙本数として回帰分析すると、1本と0本の肺がん発生リスクの違いと、100本と99本の肺がん発生リスクの違いが、完全に等しくなってしまうのです。
ダミー変数の使用
そこで、喫煙本数でグループ分けすることを考えます。
どういうことかというと、例えば、喫煙本数を「0本」「1―20本」「21本以上」の3グループに分けて回帰分析をします。
そのために、
P=α+β1X1+β2X2
という回帰モデルを使います。
ここで、
喫煙本数が0本の人については、X1=0、X2=0
喫煙本数が1−20本の人については、X1=1、X2=0
喫煙本数が21本以上の人については、X1=0、X2=1
とします。
このような変数のことをダミー変数と呼びます。
ダミー変数を使うと、
喫煙本数が0本の人については、
P=α
喫煙本数が1−20本の人については、
P=α+β1
喫煙本数が21本以上の人については、
P=α+β2
となるので、
喫煙本数が1−20本のグループの0本のグループに対するリスク差はβ1
喫煙本数が21本以上のグループの0本のグループに対するリスク差はβ2
となります。
こうすることで、喫煙本数が1−20本、21本以上のグループが非喫煙者(喫煙本数が0本の人)のグループに比べて肺がん発生リスクがどのくらい高いかがわかります。
ダミー変数を用いると、1−20本のグループと0本のグループの肺がん発生リスクの違い(β1)と、21本以上のグループと1−20本のグループの肺がん発生リスクの違い(β2―β1)が等しくなる必要がなくなるのです。
ダミー変数を用いた方が、喫煙本数と肺がん発生リスクの間の関係をより正しく表していると考えられます。
いつでも必ずダミー変数を用いた方がよい、というわけではありませんが、少なくとも、取得したデータ(数値)を用いて直ちに回帰分析を行うのは考えものです。
その数値からいくつかのグループに分けて、まずはサブグループ解析などで様子をみることが、やはり重要です。
関連記事