Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学における回帰分析の拡張【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学における回帰分析の拡張【統計解析講義基礎】

統計学における回帰分析の拡張【統計解析講義基礎】


統計学における回帰分析の拡張【統計解析講義基礎】

回帰分析の拡張

 

商品購入量を世帯員数と主婦年齢の2つの変数で説明する場合を考えてみましょう。

 

モデル式は次のようになります。

 

購入量 z=a+bx+cy+e

 

この式の意味するところは、簡単に類推できるでしょう。

 

つまり、定数aに世帯員数による分bxと、主婦年齢による分cyと、世帯ごとの偏差eを加えた合計が、その世帯の商品購入量になるというモデルです。

 

ただ、これをグラフ化することは難しいです。3つの変数によって3次元空間を描かなければならないからです。

 

変数と回帰係数

 

右辺にある変数x、yは説明変数(独立変数)、左辺にある変数zは、目的変数(従属変数)と呼びます。

 

この事例は説明変数が2個の場合ですが、これより多い場合も考えられます。

 

重回帰分析(multi-regression analysis)と呼んでいるのは、独立変数が2個以上の場合を指しています。

 

そして、独立変数が1個の場合を「単回帰」と呼んでいます。

 

いまここに単回帰、重回帰と2つの回帰式をならべてみます。

 

ただし単回帰の式の目的変数は重回帰と合わせます。

 

単回帰: z=a+bx

 

重回帰: z=a+bx+cy

 

回帰係数bは、世帯員数が1人増加したときの購入量の増加分です。

 

係数cは主婦年齢が一刻み増加したときの購入量の増加分です。

 

では単回帰のとき、世帯員数が増えたときに主婦年齢の影響はどうなるでしょうか。

 

式では何も規制していません。

 

実は世帯員数が増えると主婦年齢も自然に高くなって、それも暗に購入量に影響してくるのです。

 

しかし、重回帰のときは、あとの項で主婦年齢の影響を別に規定しているから、係数bには主婦年齢の影響が入ってきません。

 

それは別に係数cのほうに入っているのです。

 

このことを図に示すと以下のようになります。

 

統計学における回帰分析の拡張【統計解析講義基礎】

 

計算例

 

重回帰分析の計算方法は面倒なので、その説明は省略し、以下に計算結果のみを示します。

 

個別データは以下になります。

 

統計学における回帰分析の拡張【統計解析講義基礎】

 

このデータに基づく計算結果は次のようになります。

 

購入量 z=46.65+9.34x−0.630y

 

主婦年齢の偏回帰係数は−0.630とマイナスになっているのは、この商品が若い主婦により好まれる傾向をもつためと考えられます。

 

個別データにもどってみると、たとえば3人家族は3世帯ありますが、そのなかではやはり若い主婦の購入量が多くなっています。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学における回帰分析の拡張【統計解析講義基礎】

統計学における回帰分析の拡張【統計解析講義基礎】

統計学における回帰分析の拡張【統計解析講義基礎】