回帰分析による交絡の調整|【統計学・統計解析講義応用】
回帰分析による交絡の調整
ますは次の新聞記事を読んでみてください。
目覚めの一服はリスクが大。最低でも31分は我慢すること
先日、米〇〇大学の生物行動学講座の研究グループから、「目覚め直後の一服は、肺がんや口腔がんの発症リスクを高める」という研究結果が、専門誌に報告された。
調査は全米健康栄養調査に参加した成人喫煙者、約2000人から採取した血液サンプルと喫煙習慣を分析、その結果、その日最初のタバコを起床後30分以内に吸う人は、31分以上たってから最初の1本に手を伸ばす人よりも、タバコ特有の発がん物質の血中濃度が高かったのである。
研究者は「起床後にすぐタバコを吸うと、より深く吸入するため肺がんや口腔がんの発症リスクを田赤める可能性がある」としている。
実は、2年前にも同大学公衆衛生学の研究グループが「目覚めの一服」と、口腔がんを含む頭頚部がんとの関連をアメリカがん協会の機関誌で報告している。
同調査は1850人の成人男女(平均年齢58歳)を対象に実施された。
年間喫煙本数の影響を調整した上で、「最初の1本」の時間で解析したところ、31-60分以内に最初の1本を吸う喫煙者は、1時間以上たってから吸う人よりも1.42倍、30分以内に吸う喫煙者は1.59倍も発症リスクが高かった。
目覚め直後の一服は、肺がんや口腔がんの発症リスクを高めるという研究結果の記事です。
最低でも31分は我慢すること、とありますが、なんで31分なんでしょうか。
30分ではいけないのでしょうか。そこは1分たりともまからないのでしょうか。
それから、「年間喫煙本数の影響を調整したうえで・・・」と記載されています。
これは、年間喫煙本数を交絡要因とみなして、その影響を除去する統計解析をしたことを意味しています。このような解析はどのように行うのでしょうか。
リスクのための回帰モデル
直線的な関係の式
Y=α+βX
を用いて、αとβの値が推定できれば、例えばXの値が1のとき、Yの値がα+βと予想されることになります。
また、Xの値が1増えるとYの値が平均的にβ増える、ということを意味しています。
このように、回帰分析で用いる式のことを回帰モデルと呼びます。
回帰モデルを使って交絡を調整する方法について解説する前に、まずこれを、リスク差、リスク比、オッズ比を計算するための回帰モデルに応用します。
喫煙と肺がんの間の関係を調べた以下の仮想的コホート研究の結果をみていきましょう。
喫煙あり、肺がんあり:800人
喫煙あり、肺がんなし:9200人
喫煙なし、肺がんあり:400人
喫煙なし、肺がんなし:9600人
リスク差の回帰モデル
P=α+βX
このようなモデルを、特に線形モデルと呼ぶことがあります。
喫煙と肺がんの関係の例で言うと、Xが喫煙の有無を表し、Pが肺がん発生割合を表すことになります。
喫煙ありの人をX=1、喫煙なしの人をX=0で表すことにすると、喫煙ありグループの肺がん発生割合は、
P1=α+β
と表すことができます。同様に、喫煙なしグループの肺がん発生割合は、
P0=α
と表すことができます。
したがって、喫煙ありグループの肺がん発生割合と喫煙なしグループの肺がん発生割合の差、つまりリスク差は、
P1―P0=(α+β)−α=β
となります。
線形モデルを用いると、リスク差は傾きβに等しくなるのです。
統計解析ソフトを使って回帰分析してみると、
P=0.0400+0.0400X
となります。リスク差は0.04です。
確かに、800/10000−400/10000=0.04
と一致します。
リスク比の回帰モデル
今度は、logP=α+βX
という回帰モデルを考えてみましょう。
このようなモデルを、Pの対数が線形モデルになっているので、対数線形モデルと呼ぶことがあります。
喫煙と肺がんの関係の例では、喫煙ありグループの肺がん発生割合Pについては、
logP1=α+β
と表せます。
同様に、喫煙なしグループの肺がん発生割合については、
logP0=α
と表せます。したがって、
logP1−logP0=log(P1/P0)=β
です。
自然対数の底eを用いると、
elog(P1/P0)=P1/P0=eのβ乗
となります。
つまり、対数線形モデルを用いると、リスク比はeのβ乗で表されるのです。
喫煙と肺がんの関係の例で回帰分析してみると、
LogP=−3.2189+0.6931X
となります。
リスク比はeの0.6931乗で2.00となります。
確かに、800/10000/400/10000=2.00
と一致します。
オッズ比の回帰モデル
オッズ比については、少し複雑に見えるかもしれませんが、
Log(P/1-P)=α+βX
という回帰モデルを使います。
Logの中のP/1-Pは、イベントが起きるリスクPとイベントが起きないリスク1-Pとの比、つまりオッズです。
オッズの対数が線形モデルになっています。
このようなモデルを、特にロジスティック回帰モデルと呼びます。
喫煙と肺がんの関係の例では、喫煙ありグループのオッズP1/1-P1は、
Log(P1/1-P1)=α+β
となり、喫煙なしグループのオッズP0/1-P0は、
Log(P0/1-P0)=α
と表せます。したがって、
Log(P1/1-P1)−Log(P0/1-P0)=Log(P1/1-P1/P0/1-P0)=β
です。Logの中はオッズ比になっています。
したがって、自然対数の底eを用いると、
eLog(オッズ比)=オッズ比=eのβ乗
となります。ロジスティック回帰モデルを用いると、オッズ比もeのβ乗で表すことができます。
喫煙と肺がんの関係の例で回帰分析してみると、
Log(オッズ比)=−3.1781+0.7357X
となります。
オッズ比はeの0.7357乗で2.09となります。
800/9200/400/9600=2.09
と一致します。
ケースコントロール研究でのロジスティック回帰モデル
ロジスティック回帰モデルは、ケースコントロール研究でもそのまま使うことができます。
肺がんなしの人を1/10の1880人だけランダムサンプリングしてケースコントロール研究を行った場合の以下の結果で試してみましょう。
喫煙あり、肺がんあり:800人
喫煙あり、肺がんなし:920人
喫煙なし、肺がんあり:400人
喫煙なし、肺がんなし:960人
Xが喫煙の有無、Pを肺がん発生割合として、
ロジスティック回帰モデル
Log(Px/1-Px)=α+βX
を使って回帰分析してみると、
Log(オッズ比)=−0.8753+0.7356X
という結果が得られました。
微妙にβの推定値が異なっていますが、四捨五入すると、オッズ比は同じく2.09です。
コホート研究で定義されるオッズ比の値とケースコントロール研究で定義されるオッズ比の値は必ず等しくなります。
関連記事