重回帰モデルで解き明かす購入量の秘密【ChatGPT統計解析】
重回帰モデル「購入量 z = a + bx + cy + e」は、定数 a に、世帯員数 x による影響 bx、主婦年齢 y による影響 cy、世帯ごとの偏差 e を加えて、その世帯の購入量を予測するものです。ここで、x と y は説明変数(独立変数)、z は目的変数(従属変数)です。回帰係数 b は世帯員数が1人増えたときの購入量の増加分、c は主婦年齢が1年増えたときの購入量の変化を示します。具体例として「購入量 z = 46.65 + 9.34x - 0.630y」があり、主婦年齢の係数がマイナスであるのは、若い主婦がこの商品を好む傾向があるためです。重回帰分析は、複数の独立変数がある場合に使用され、単回帰分析とは異なります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
重回帰モデル
商品購入量を世帯員数と主婦年齢の2つの変数で説明する場合を考えてみましょう。
モデル式は次のようになります。
購入量 z=a+bx+cy+e
この式の意味するところは、簡単に類推できるでしょう。
つまり、定数aに世帯員数による分bxと、主婦年齢による分cyと、世帯ごとの偏差eを加えた合計が、その世帯の商品購入量になるという重回帰モデルです。
ただ、これをグラフ化することは難しいです。
3つの変数によって3次元空間を描かなければならないからです。
変数と回帰係数
右辺にある変数x、yは説明変数(独立変数)、左辺にある変数zは、目的変数(従属変数)と呼びます。
この事例は説明変数が2個の場合ですが、これより多い場合も考えられます。
重回帰分析(multi-regression analysis)と呼んでいるのは、独立変数が2個以上の場合を指しています。
そして、独立変数が1個の場合を「単回帰」と呼んでいます。
いまここに単回帰、重回帰と2つの回帰式をならべてみます。
ただし単回帰の式の目的変数は重回帰と合わせます。
単回帰: z=a+bx
重回帰: z=a+bx+cy
回帰係数bは、世帯員数が1人増加したときの購入量の増加分です。
係数cは主婦年齢が一刻み増加したときの購入量の増加分です。
では単回帰のとき、世帯員数が増えたときに主婦年齢の影響はどうなるでしょうか。
式では何も規制していません。
実は世帯員数が増えると主婦年齢も自然に高くなって、それも暗に購入量に影響してくるのです。
しかし、重回帰分析のときは、あとの項で主婦年齢の影響を別に規定しているから、係数bには主婦年齢の影響が入ってきません。
それは別に係数cのほうに入っているのです。
このことを図に示すと以下のようになります。
計算例
重回帰分析の計算方法は面倒なので、その説明は省略し、以下に計算結果のみを示します。
個別データは以下になります。
このデータに基づく計算結果は次のようになります。
購入量 z=46.65+9.34x−0.630y
主婦年齢の偏回帰係数は−0.630とマイナスになっているのは、この商品が若い主婦により好まれる傾向をもつためと考えられます。
個別データにもどってみると、たとえば3人家族は3世帯ありますが、そのなかではやはり若い主婦の購入量が多くなっています。
関連リンク