重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】

重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】

重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】
重回帰分析は、複数の説明変数で目的変数を予測する手法。ソルバーで残差の平方和を最小化(最小2乗法)することにより計算可能。多重共線性(マルチコ)に注意


目次  重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】

 

重回帰分析:複数の説明変数で目的変数を予測

 

重回帰分析は、説明変数目的変数がいずれも連続変数の場合に、複数の説明変数から目的変数を予測する多変量解析の手法の一つです。

 

直線回帰分析の発展形として考えるとわかりやすいです。

 

直線回帰分析は、ソルバーによる最小2乗法で簡単に分析を実行することができ、しかもわかりやすい、解釈しやすいというメリットがあります。

 

回帰診断を行い妥当であれば、その結果を採択するのもよいでしょう。

 

しかし、世の中の多くの現象は、1つの変数だけで因果関係が成立しているわけではありません。

 

例えば先の体重と食前血糖値の例ですが、

 

重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】

 

これはあくまで、食前血糖値が体重だけで説明できることを前提とした分析です。

 

しかし、食前血糖値は本当に体重だけで説明できるのでしょうか。

 

血糖値を左右する要因には様々のものが考えられていますが、ホルモン(特にインスリン)との関係が強いとされています。

 

インスリン以外にも甲状腺ホルモン、副腎皮質ホルモン、副腎髄質ホルモン、下垂体ホルモン、グルカゴンなどたくさんのホルモンの関与が考えられています。

 

また、インスリンは中性脂肪の形成やタンパク合成にも関与するとされています。

 

では、関連する要因を変数とし、複数の変数を盛り込んだモデルを使えばよいではないか、という発想になります。

 

まさにこれが多変量解析の出発点です。

 

重回帰分析では、複数の連続変数(例えば体重と中性脂肪)を説明変数とし、単一の連続変数である目的変数(例えば食前血糖値)を求めます。

 

式で表すと以下のようになります。
重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】

 

予測の統計学で私たちが最終的に目指すところは、意味のある予測をすることにあります。

 

複数の変数を盛り込むことにより、より精度の高い予測ができるのであればそれに越したことはありません。

 

例えば先の例で、血糖値以外に中性脂肪のデータがあったとします。
重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】
そこで、この中性脂肪も変数にして回帰分析を行ってみましょう。
重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】

 

ソルバーで残差の平方和を最小化(最小2乗法)

 

分析方法は基本的に直線回帰分析と同じで、ソルバーによる最小2乗法で求められます。

 

予測式(回帰式)は、aX1+bX2+c という式になります。X1が体重、X2が中性脂肪です。

 

セルE21:E23を変化させ、残差の平方和を最小にすると、上記のように回帰係数が求まります。

 

さて結果ですが、先ず残差に注目してみましょう。

 

直線回帰では27.5でしたが、重回帰では2.6と、残差がより小さくなっています。

 

回帰分析は生データにあわせて予測するため、モデルが複雑になればなるほど、生データにあわせやすくなるため、残差はこのように小さくなります。

 

このことは、右のグラフを見てもわかりますが、生データのS字の挙動に忠実に合わせるかのように回帰曲線が引かれています。

 

重回帰分析は、直線回帰分析と同様にソルバーで計算できます

 

観測値へのあてはまりは直線回帰分析より良くなります。

 

 

多重共線性(マルチコ)

 

重回帰分析は、時として解が得られない場合があります。

 

いわゆる多重共線性(マルチコ)と言われているもので、これはマルチコリニアリティ(multicollinearity)の略です。

 

マルチコとは、説明変数の相関係数が極めて高い場合に、どちらか一方であれば十分であるのに、説明変数として両方を使ってしまったために、計算不能に陥ってしまう事態をいいます。

 

昔、連立方程式は変数と同じ数だけ独立した式がないと解けないということを中学生の時に習ったと思います。

 

これと似た現象で、独立していない相関の高い似たような変数を組み合わせて使うのは良くないということです。

 

例えば先の例では中性脂肪を説明変数に使いましたが、中性脂肪とLDLコレステロールと総コレステロールの3つを変数に使ってはいけません。

 

これらは相関が高いことは既に医学的に明らかであるからです。

 

マルチコを回避するには変数間の相関係数を確認したり、偏回帰係数の符号を見たりすることで発見し、相関係数の高いどちらかの変数を除外して分析するなどの対策を打ちます

 

多重共線性(マルチコ)に注意しましょう。

 

変数同士の相関関係を予めチェックしましょう

 

 

重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】


セミナー詳細                    解析ご相談                    LINEでお友達

 

重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】

重回帰分析:複数の説明変数で目的変数を予測|多重共線性(マルチコ)【統計学・統計解析講義基礎】