多重回帰の解釈に潜む因果関係の誤解【ChatGPT統計解析】
多重回帰モデルの結果から個別の変数を解釈したい場面があるが、これは注意が必要である。例えば、体重やコレステロール値から心臓麻痺のリスクを求めるモデルは、これらの数値が健康範囲にある人が心臓麻痺のリスクが低いことを示しているだけで、体重を減らしたりコレステロールを下げることが直接心臓麻痺の予防になるという因果関係を示しているわけではない。実際には交絡変数の影響が考えられ、肥満や高コレステロールは心臓麻痺を引き起こす要因の結果にすぎないかもしれない。2010年にはオメガ3脂肪酸の効果に関する事例があり、観察研究で心臓麻痺リスク低下と相関があったが、2013年のランダム化比較試験で有効性が確認されなかった。複数の変数を統制しても、他の変化を抑えたまま特定の変数だけを変えることは現実的ではなく、回帰方程式の結果を現実に反映させるのは難しい。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
相関であって因果でない事例
多重回帰を使って何らかの結果をモデルにするとき,1つ1つの変数についてその意味を解釈したくなることがあるだろう。
例えば,ある人の体重やコレステロールなどからその人が心臓麻痺になる確率を求めるような場合,何千人もの人を調査して,心臓麻痺になったことがあるかをたずね,徹底的に身体検査をして,モデルを作る。
そして,「体重を減らし,コレステロール値を健康な範囲に収めましょう」という健康に関する助言を与えるためにこのモデルを使うのだ。
こうした助言に従えば,心臓麻痺になる割合は30%減少するだろうというわけだ。
しかし,これはモデルが表しているものとは違う。
モデルは,コレステロールと体重が健康な範囲に収まっている人の心臓麻痺のリスクが30%低いということを表しているのだ。
過体重の大にダイエットと日常的な運動をさせた場合,心臓麻痺になる可能性が低くなると言っているわけではない。
そう言えるデータは集めていない。
どうなるかを知るために,ボランティアで研究に参加してくれた人の体重・コレステロール値に介入して変化させることはしなかったのだ。
ここには交絡変数がある可能性がある。
肥満と高コレステロール値は,心臓麻痺も引き起こす可能性がある他の要因から生じた症状なだけかもしれない。
運動や薬のスタチンは,肥満と高コレステロール値を改善させるかもしれないが,心臓麻痺には何も影響しないかもしれない。
回帰モデルは,コレステロール値が低いほど心臓麻痺が少ないということを示すが,これは相関であって因果ではない。
この問題に関する事例が2010年に起きている。
この例では,オメガ3脂肪酸という,魚油に含まれていたり,健康サプリメントとして普通に売られていたりするものが,心臓麻痺のリスクを減らせるかということについて試験された。
オメガ3脂肪酸が心臓麻痺のリスクを減らすという主張はいくつかの観察研究と実験データによって支持されていた。
脂肪酸には抗炎作用があり,さらに血流中のトリグリセリド値を下げることができる。
そして,これら2つの特徴が心臓麻痺のリスクを下げることと相関していることが知られている。
このため,オメガ3脂肪酸が心臓病のリスクを下げるはずだと考えられたのだ。
しかし,証拠は観察によるものだった。
トリグリセリド値が低い患者は心臓の問題が少なく,魚油はトリグリセリド値を下げるので,魚油が心臓の問題を防ぐはずだという結論が誤ってなされた。
2013年になってようやく,患者に対して魚油か偽薬(オリーブオイル)を与えて,経過を5年間見た大規模なランダム化比較試験の結果が公表された。
そこには,魚油に有益な効果があるという証拠はなかった。
複数の交絡因子を統制しているときには,他の問題も生じうる。
「他の変数が変化しない場合,体重が1ポンド(およそ0.54キログラム)増えるごとに心臓麻痺になる割合は……だけ増える」といった形で結果を解釈することはよくあることで,これは正しいのかもしれない。
だが,他のすべての変数を変化しないままにすることは,実際には不可能かもしれない。
回帰方程式から数字を引っぱってくることはいつでもできるが,現実には体重が1ポンド増えるときには他の変化も起こる。
他のすべての変数をそのままにした上で体重を1ポンド増やすということは,誰にもできない。
だから,回帰方程式は現実に置き換えることができないのだ。
多重回帰を用いてある結果をモデル化する際、得られたモデルに基づいて変数ごとの意味を解釈したくなることがあるが、このアプローチには注意が必要だ。例えば、心臓麻痺になるリスクを予測するために体重やコレステロール値といった要因を用いるモデルを考えてみよう。何千人ものデータを収集し、過去に心臓麻痺の既往があるかどうかを含めた身体検査の結果を用いてモデルを構築する。このようなモデルを使い、「体重を減らし、コレステロール値を適正な範囲に収めるよう努めましょう」といった健康指導を行うことができる。結果として、心臓麻痺のリスクは30%減少すると考えられるだろう。しかし、この解釈は注意を要する。モデルが実際に示しているのは、コレステロール値や体重が健康な範囲内にある人々において心臓麻痺のリスクが30%低いということであって、必ずしも過体重の人にダイエットや運動を促すことで心臓麻痺のリスクが低くなると結論づけるものではない。モデルがそうした因果関係を示しているわけではないのだ。この点を明確に理解することは極めて重要である。なぜなら、データが表しているものとそのデータから導き出される因果関係は別物だからだ。実際、このようなモデルではボランティアに対して体重やコレステロール値を強制的に変化させる介入が行われたわけではなく、単なる観察データが用いられている。観察データでは交絡因子が存在する可能性を排除できず、肥満や高コレステロール値は心臓麻痺を引き起こす可能性がある他の要因の結果にすぎないかもしれない。例えば、運動不足や不健康な食生活が共通の原因として挙げられる。こうした交絡因子を正確に特定し、統制しない限り、観察研究に基づいて因果関係を主張することは不適切である。さらに、例として2010年のオメガ3脂肪酸に関する研究が挙げられる。この研究では、魚油に含まれるオメガ3脂肪酸が心臓麻痺のリスクを減らすかどうかが試験された。当初、この考えは観察研究や実験データによって支持されており、オメガ3脂肪酸には抗炎症作用があり、血中のトリグリセリド値を低下させることが知られていたため、これが心臓麻痺のリスクを下げると考えられた。しかし、観察による証拠の限界は見過ごされがちである。例えば、トリグリセリド値が低い患者は心臓疾患の発生率が低いことが観察され、魚油がトリグリセリド値を下げることから、魚油が心臓の問題を防ぐとの結論が導かれたが、これは相関に基づく誤った結論だった。2013年には、この仮説を検証するための大規模なランダム化比較試験が実施され、魚油または偽薬としてオリーブオイルを5年間にわたり投与して経過を観察したところ、魚油が心臓麻痺のリスクに有益な効果をもたらすという証拠は得られなかった。この例からもわかるように、観察データだけでは因果関係を確定することはできず、交絡因子を排除した厳密な実験が必要である。さらに、交絡因子を統制したとしても他の問題が発生することがある。例えば、「他の変数が変化しない場合、体重が1ポンド(約0.54キログラム)増加すると心臓麻痺のリスクが○○%増加する」という形で結果を解釈することはよくあるが、この「他の変数が変化しない」という前提自体が現実には成立しないことが多い。体重が1ポンド増える際には、代謝の変化や血圧の上昇など、他の変数が連動して変化するのが一般的であるため、「他のすべての変数をそのままにして体重だけが増加する」という仮定は実現不可能だ。回帰方程式によって導き出された数値をそのまま現実に適用することには限界があるのだ。モデルから得られる相関が因果関係を示すと誤解しないようにしなければならない。学術的な研究において、観察研究が相関を示すことはよくあるが、その相関が因果関係であるかを確かめるためには介入研究やランダム化比較試験が必要である。これを怠ると、データに基づいた誤った健康指導や政策が生まれる可能性がある。例えば、ある国の健康政策が「オメガ3脂肪酸の摂取を推奨する」とする場合、観察データだけに基づいているとしたら、それは誤解を招く可能性がある。科学的なエビデンスを慎重に解釈し、相関と因果を混同しないことが、科学的な理解を深め、正確な情報をもとにした行動を促すために必要不可欠である。
関連記事