Python・R・エクセルによるデータサイエンス | 統計解析講義

モデルによる推測統計学:直線回帰分析【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

モデルによる推測統計学:直線回帰分析【統計解析講義基礎】

モデルによる推測統計学:直線回帰分析【統計解析講義基礎】


モデルによる推測統計学:直線回帰分析【統計解析講義基礎】

 

目次  モデルによる推測統計学:直線回帰分析【統計解析講義基礎】

 

直線回帰分析

 

例えば35歳のときの血圧が135mmHg、45歳のときの血圧が145mmHgであったとします。40歳のときの血圧の値はないのですが、もしあったらいくらだと予想しますか。

 

この予想は簡単ですね。暗算でも140mmHgと求まります。

 

実は、無意識のうちに頭の中で、

 

血圧=1×年齢+100

 

という計算をしています。

 

この計算により、本来ない40歳時の血圧を140mmHgと予測することができるのです。

 

この場合、年齢をX、血圧をYとすると、

 

X、Yがいずれも連続変数であるとき、

 

Y=1×X+100

 

という式で、XからYを予測することを直線回帰分析といいます。

 

Xのことを説明変数、Yのことを目的変数といいます。

 

説明、目的の意味は、Yを予測することを目的とした場合、これをXで説明できるか、という意味合いがあります。

 

Y=1×X+100

 

というのはグラフにすると直線になります。1が直線の傾き、100が直線とY軸との交点です。Y切片ともいいます。

 

ここで注意しなければいけないのは、直線回帰分析は、XとYの関係を調べる手法ではありません。関係を調べる手法としては、別途相関分析というものがあります。回帰分析ではXとYは対等ではないということです。Xが与えられて、はじめてYが予測できるのです。そういう意味でXのことを独立変数、Yのことを従属変数と呼ぶこともあります。

 

上の例は2点で予測する極端な例ですが、実際の回帰分析では、もっとたくさんの観測値を扱います。

 

直線回帰分析の目的は、直線を決定することです。つまり、傾きとY切片を求めることです。これら傾き、Y切片のことは回帰係数と呼びます。

 

傾きをb1、Y切片をb0とすると、

 

Y=b0+b1×X

 

という一般式で表されます。

 

このb0、b1は標本(観測値)から計算することが可能な値です。

 

あくまで標本から得られた値であり、真の値は神様しかわかりません。

 

真の回帰式は、

 

Y=β0+β1×X

 

と、回帰係数をギリシア文字で表します。

 

回帰分析が可能とするための条件が2つあります。Y=β0+β1×X
において、

 

@ Yが正規分布をする

 

A Yに等分散性が成立する

 

ということです。

 

とはいっても、標本サイズが小さいうちは、本当に正規性があるのか等分散性があるのかはわかりません。その段階でも、回帰分析を行って構いません。

 

さて、直線を決定するにはどうすればよいでしょうか。

 

直線は、なるべく観測値にあてはまっている方がよいと考えられます。

 

では、観測値と直線のあてはまりがよいとはどういうことでしょうか。

 

それは、同じXにおける観測値Yと、直線上の値Y-hatが、なるべく近いということです。

 

YとY-hatの差のことを、残差と呼んでいます。

 

残差=Y−Y-hat

 

残差がなるべく小さくなるように直線を決定する、ということです。

 

それも、一観測値の残差ではなく、全観測値の残差全体をなるべく小さくする必要があります。

 

では、実際どうすればよいでしょうか。

 

観測値は複数あります。そして、直線の上側にも、下側にも観測値があります。

 

直線の上側に観測値があるときは、残差はプラスになります。

 

直線の下側に観測値があるとくは、残差はマイナスになります。

 

単純に足し算すると、プラスとマイナスが打ち消されてしまいます。

 

そこで必要な発想が、「2乗する」という発想です。

 

2乗してからたすことにより、マイナスとプラスを打ち消しあうのを回避でき、純粋にその大きさだけを評価できます。

 

残差を2乗して足し算する、すなわち残差平方和を計算します。

 

この残差平方和を最小にすることにより、最適な直線を決定します。

 

これがすなわち最小2乗法です。

 

残差平方和は、回帰係数の2次関数で表されます。縦軸に残差平方和、横軸に回帰係数の一方をとると、下に凸の放物線になります。

 

さて、下に凸の放物線の場合、最小値はどこにあるでしょう。

 

言うまでもなくとがった最下部です。

 

最下部の特徴として、接線の傾きがゼロになります。

 

接線の傾きは、2次関数を微分すれば求めます。

 

微分してゼロ、という関係式をつくればよいのです。

 

直線回帰分析の場合、回帰係数が、b0、b1と2つあります。

 

したがって、残差平方和をb0、b1の2次式であらわし、これをb0、b1について偏微分すればよいことになります。

 

これにより、b0、b1を計算することができます。

 

全体を俯瞰すると、横軸がb0、奥行き軸がb2、縦軸を残差平方和とする放物面になります。

 

この放物面の最下部に求めたい最小値があります。

 

この最小値はたった一つしかありません。

 

この最小値が編微分で求まれば、回帰係数b0、b1の解も一意に決まります。

 

回帰分析の中でも直線回帰分析は最も簡単なモデルですが、回帰係数を求めるためにこんな複雑なことをしているのです。

セミナー詳細こちら                    解析ご相談こちら


 

モデルによる推測統計学:直線回帰分析【統計解析講義基礎】

モデルによる推測統計学:直線回帰分析【統計解析講義基礎】

モデルによる推測統計学:直線回帰分析【統計解析講義基礎】