Python・R・エクセルによるデータサイエンス | 統計解析講義

データから予測する統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

データから予測する統計学【統計解析講義基礎】

データから予測する統計学【統計解析講義基礎】


データから予測する統計学【統計解析講義基礎】

 

回帰分析は、2つ以上の変量の組で表されるデータがあるとき、ある変量と他の変量との関係を求める方法です。

 

「関連の強さ」を調べる相関分析と違い、回帰分析では、一方の変量によって他方の変量が決まるという関係があるとき、ある変量の変化を、もう一方の変量の変化で説明するためのモデル式を求めるという考え方をします。

 

線形単回帰

 

緯度と気温の間には負の相関関係がありますが、「気温が緯度によって決まっている」というモデルで表現しようというのが回帰分析です。

 

緯度をxとし、気温をyとするとき、xによってyが決まるという関係を、統計学では「yはxによって説明される」といい、xを説明変数、yを目的変数といいます。

 

また、この関係をyのx上への回帰といいます。

 

この例の場合、明らかに散布図上で右下がりの直線となるような関係がありそうです。

 

だからといって、散布図上にデータが完全に直線上に並んでいるわけではありません。

 

では、どういう直線をひけばよいのでしょうか。

 

緯度xと気温yに散布図上で直線の関係があると仮定するということは、散布図上にばらついているデータを、y=a+bx という式で表される直線というモデルで表すことになります。

 

このような回帰を、線形単回帰といいます。

 

そこで、この式のa、bつまり、パラメータを決める方法を考えます。

 

表で与えられている緯度と気温の組をxi、yiとします。

 

添え字のiは、表のなかの上からi番目の年を表します。

 

xとyの間の関係が、y=a+bxというモデルで完全に表されるのなら、x=xiのときy= a+bxiとなるはずです。

 

しかし、現実にはy=yiとなっていて、一致していません。

 

そこで、パラメータを調節して、この「すべての(xi、yi)についての、y=yiとa+bxiとの差の合計」がもっとも小さくなるパラメータをもっとも適切なパラメータとします。

 

差には正負がありますから、実際には差の2乗の合計が最小となるようにaとbを決定します。

 

このようなaとbを求める方法を最小2乗法といいます。

 

直線回帰分析では、最小2乗法の解は、傾きbはxyの共分散をxの分散で割った値となります。

 

そして、yの平均−b×xの平均 によりaを求めます。

 

このようにして得られる1次式y=a+bxをyのx上への回帰方程式あるいは回帰直線といいます。

 

また、回帰直線の傾きbとy軸との交点(y切片)aを回帰係数といいます。

セミナー詳細こちら                    解析ご相談こちら


 

データから予測する統計学【統計解析講義基礎】

データから予測する統計学【統計解析講義基礎】

データから予測する統計学【統計解析講義基礎】