Excelで極める! 重回帰分析とマルチコの謎【ChatGPT統計解析】
重回帰分析は、複数の説明変数を用いて目的変数の値を予測する統計手法です。直線回帰分析を複数変数に拡張した形であり、Excelのソルバーを活用して残差平方和を最小化する最小二乗法でパラメータを推定します。分析においては多重共線性(マルチコ)の問題に注意が必要です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
目次 Excelで極める! 重回帰分析とマルチコの謎【ChatGPT統計解析】
重回帰分析:複数の説明変数で目的変数を予測
重回帰分析は、説明変数と目的変数がいずれも連続変数の場合に、複数の説明変数から目的変数を予測する多変量解析の手法の一つです。
直線回帰分析の発展形として考えるとわかりやすいです。
直線回帰分析は、ソルバーによる最小2乗法で簡単に分析を実行することができ、しかもわかりやすい、解釈しやすいというメリットがあります。
回帰診断を行い妥当であれば、その結果を採択するのもよいでしょう。
しかし、世の中の多くの現象は、1つの変数だけで因果関係が成立しているわけではありません。
例えば先の体重と食前血糖値の例ですが、
これはあくまで、食前血糖値が体重だけで説明できることを前提とした分析です。
しかし、食前血糖値は本当に体重だけで説明できるのでしょうか。
血糖値を左右する要因には様々のものが考えられていますが、ホルモン(特にインスリン)との関係が強いとされています。
インスリン以外にも甲状腺ホルモン、副腎皮質ホルモン、副腎髄質ホルモン、下垂体ホルモン、グルカゴンなどたくさんのホルモンの関与が考えられています。
また、インスリンは中性脂肪の形成やタンパク合成にも関与するとされています。
では、関連する要因を変数とし、複数の変数を盛り込んだモデルを使えばよいではないか、という発想になります。
まさにこれが多変量解析の出発点です。
重回帰分析では、複数の連続変数(例えば体重と中性脂肪)を説明変数とし、単一の連続変数である目的変数(例えば食前血糖値)を求めます。
式で表すと以下のようになります。
予測の統計学で私たちが最終的に目指すところは、意味のある予測をすることにあります。
複数の変数を盛り込むことにより、より精度の高い予測ができるのであればそれに越したことはありません。
例えば先の例で、血糖値以外に中性脂肪のデータがあったとします。
そこで、この中性脂肪も変数にして回帰分析を行ってみましょう。
ソルバーで残差の平方和を最小化(最小2乗法)
分析方法は基本的に直線回帰分析と同じで、ソルバーによる最小2乗法で求められます。
予測式(回帰式)は、aX1+bX2+c という式になります。X1が体重、X2が中性脂肪です。
セルE21:E23を変化させ、残差の平方和を最小にすると、上記のように回帰係数が求まります。
さて結果ですが、先ず残差に注目してみましょう。
直線回帰では27.5でしたが、重回帰では2.6と、残差がより小さくなっています。
回帰分析は生データにあわせて予測するため、モデルが複雑になればなるほど、生データにあわせやすくなるため、残差はこのように小さくなります。
このことは、右のグラフを見てもわかりますが、生データのS字の挙動に忠実に合わせるかのように回帰曲線が引かれています。
重回帰分析は、直線回帰分析と同様にソルバーで計算できます。
観測値へのあてはまりは直線回帰分析より良くなります。
多重共線性(マルチコ)
重回帰分析は、時として解が得られない場合があります。
いわゆる多重共線性(マルチコ)と言われているもので、これはマルチコリニアリティ(multicollinearity)の略です。
マルチコとは、説明変数の相関係数が極めて高い場合に、どちらか一方であれば十分であるのに、説明変数として両方を使ってしまったために、計算不能に陥ってしまう事態をいいます。
昔、連立方程式は変数と同じ数だけ独立した式がないと解けないということを中学生の時に習ったと思います。
これと似た現象で、独立していない相関の高い似たような変数を組み合わせて使うのは良くないということです。
例えば先の例では中性脂肪を説明変数に使いましたが、中性脂肪とLDLコレステロールと総コレステロールの3つを変数に使ってはいけません。
これらは相関が高いことは既に医学的に明らかであるからです。
マルチコを回避するには変数間の相関係数を確認したり、偏回帰係数の符号を見たりすることで発見し、相関係数の高いどちらかの変数を除外して分析するなどの対策を打ちます。
多重共線性(マルチコ)に注意しましょう。
変数同士の相関関係を予めチェックしましょう。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
重回帰分析について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
重回帰分析とは、複数の原因(説明変数)が1つの結果(目的変数)にどう影響するかを調べる方法です。例えば、家の価格を予測するとき、家の大きさや築年数、駅からの距離など、いくつかの要因が価格に影響を与えますよね。重回帰分析を使うと、これら複数の要因を同時に考慮して、家の価格をどう予測できるかを分析できます。この分析では、それぞれの要因が価格にどれくらい影響しているか、つまりその「重み」を計算します。これにより、どの要因が価格に大きく影響しているのか、また、それぞれの要因が価格をどれくらい変えるのかがわかります。重回帰分析の良いところは、現実の複雑な問題を、複数の角度から分析できることです。ただ、計算にはコンピュータの力を借りることが多いです。また、データの選び方や分析の仕方によっては、間違った結論を導くこともあるので、慎重に行う必要があります。でも、この分析を使いこなせれば、多くの要因が絡み合う問題を解明する強力なツールになります。