交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
交絡を調整するための回帰モデルは、交絡要因を取り除くために使用され、たとえば年齢が交絡要因である場合、P=α+βX+γC(Xは喫煙、Pは肺がん発生割合、Cは年齢)として表される。50歳以上で喫煙の有無におけるリスク差はβであり、50歳未満でも同様にβとなり、年齢層でリスク差が等しくなることが示される。複数の交絡要因がある場合でも、一般化した式P=α+βX+γ1C1+γ2C2…で調整が可能だが、要因が多いと推定が難しくなる。また、回帰分析では効果が各層で等しいことを前提としているが、実際にはそうでないことがあり、効果の指標の修飾が生じることがある。この場合、交絡要因の各層の平均的な値を推定するが、大きな修飾や効果の向きが異なる場合には注意が必要である。観察研究の限界は、取得できるデータに依存し、見えない要因は調整できないこと、モデルの正確性が完全ではないことにある。ランダム化研究は比較的証拠能力が高い。

交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】



交絡を調整するための回帰モデル


交絡を調整するための回帰モデルについて解説します。


次のデータを見てみましょう。


<50歳以上>
喫煙あり、肺がんあり:768人
喫煙あり、肺がんなし:7232人
喫煙なし、肺がんあり:288人
喫煙なし、肺がんなし:2712人


<50歳未満>
喫煙あり、肺がんあり:32人
喫煙あり、肺がんなし:1968人
喫煙なし、肺がんあり:112人
喫煙なし、肺がんなし:6888人


年齢を交絡要因として考えます。


年齢(交絡要因)の影響を除去するリスク差のモデル(線形モデル)は、


P=α+βX+γC


となります。Xが喫煙の有無。Pが肺がん発生割合、Cが年齢です。


50歳以上の人をC=1、50歳未満の人をC=0で表すことにすると、


50歳以上の人での「喫煙あり」の人の肺がん発生割合は、


P1=α+β×1+γ×1=α+β+γ


で、50歳以上での「喫煙なし」の人の肺がん発生割合は、


P0=α+γ


となります。したがって、50歳以上の人でのリスク差は、


P1−P0=(α+β+γ)−(α+γ)=β


となります。同じように、50歳未満の人(C=0)でのリスク差を計算すると、


P1−P0=(α+β)−(α)=β


となります。50歳以上の人でのリスク差と50歳未満の人でのリスク差が等しくなるのです。


つまり、


回帰モデルでは、交絡要因の各層で効果が等しいことを前提として交絡を調整している


のです。本当にこんな回帰モデルできちんと交絡を調整できるのでしょうか。


早速この例で試してみましょう。


50歳以上の層でのリスク差が、


768/8000−288/3000=0.00


32/2000−112/7000=0.00


なので、年齢で調整したリスク差も0.00になることが期待されますが、


統計ソフトを使ってコンピューターで回帰分析してみると、


P=0.0160+0.0000X+0.0800C


となりました。年齢で調整したリスク差は0.00です。確かにちゃんと調整できました。



一般化


ここまでは、交絡要因として年齢という要因1つだけを考えました。


しかし、実際には、交絡要因と考えられるものが複数ある場合が多々あります。


そんな場合でも、回帰モデルを使って交絡を調整することができます。


以下の一般化した式


P=α+βX+γ1C1+γ2C2+γ3C3+・・・・


という式を用いればよいのです。


例えば、C1が年齢、C2が性別、C3がBMI、といった具合です。


交絡を調整したリスク差は、やはりβです。


ただし、データ数に対して交絡要因の数が多いとうまく推定できなくなってしまうことがあるので、注意が必要です。


また、リスク差の話ばかりをしましたが、交絡を調整したリスク比やオッズ比も計算することができます。


リスク比については、PをLogPに変えればよくて、オッズ比については、Lpg(P/1-P)


に変えればよいのです。


効果の指標の修飾


回帰モデルでは交絡要因の各層で効果が等しいことを前提として交絡を調整しているのです。


しかし、このような前提がいつも成り立つとは限りません。むしろ、成り立たないことの方が多いかもしれません。


交絡を調整する回帰分析では、回帰モデルが厳密に正しいモデルであることは、ほとんどあり得ないのです。


交絡要因の各層で効果が異なるとき、効果の指標の修飾がある、と表現します。


効果の指標の修飾がある場合に回帰分析をすると、交絡要因の各層の人数に応じた平均的な値が推定されます。


例えば、男性でのリスク差が0.14、女性でのリスク差が0.16だったら、回帰分析では、リスク差が0.14-0.16の間の値として推定されます。


たとえ効果の指標の修飾があっても、それが小さいものであれば実質的な問題は起こりません。


しかし、効果の指標の修飾が大きい場合や効果の向きが異なっている場合には注意が必要です。


効果の向きが異なっている場合というのは、リスク差で言うと、交絡要因のある層ではリスク差が正の値をとるけれども、他のある層ではリスク差が負の値をとる場合のことです。


このような場合、質的な効果の指標の修飾がある、と言ったりします。


例えば、現実的ではないと思いますが、喫煙と肺がん発生の間の関係を調べるときに、男性でのリスク差が0.2(喫煙は肺がんのリスクを増加する)、女性でのリスク差が-0.2(喫煙は肺がんリスクを減少する)のような場合です。


このような場合に、「リスク差は0です」(喫煙と肺がんは無関係)というのは正しくないです。


男性ではリスク差0.2、女性ではリスク差が-0.2です、という方がより正しく実態を表しています。


このことからもわかるように、交絡を調整するために直ちに回帰分析を行うのではなくて、


先ずはサブグループなどで様子をみることが重要です。


観察研究の限界


回帰分析で調整できる交絡要因は、観察できて、データとして取得したものに限ります。


つまり、データとして取得していない交絡要因については調整することができないのです。


また、回帰モデルが厳密に正しいモデルであることはほとんどあり得ないのです。


モデルが正しくなければ、推定される効果の指標も正しくない可能性があります。


これが回帰分析の限界であり、観察研究の限界でもあるのです。


一方で、ランダム化研究では、ランダム化することによって、観察できない要因も比較するグループ間で(平均的に)揃っていきます。


回帰モデルのようなモデルも使いません。


したがって、一般に、


ランダム化研究からの結果は、観察研究からの結果よりも証拠能力が高いのです。



交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


セミナー詳細                    解析ご相談                    LINEでお友達

交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

交絡を調整する回帰モデルの実践と限界【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】