Python・R・エクセルによるデータサイエンス | 統計解析講義

ダミー変数【統計解析講義応用】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

ダミー変数【統計解析講義応用】

ダミー変数【統計解析講義応用】


ダミー変数【統計解析講義応用】

 

ダミー変数

 

例えば、カードの種類が2つの分類しかない場合を考えます。

 

ここでは、現金客とそれ以外(一般カードとプレミアカードを一緒にする)とした場合の分析例から説明します。

 

カテゴリータイプのデータが、現金客とそれ以外というように2つの分類しか含まれない場合、一方の分類を0、もう一方の分類を1とおいた、(0,1)型のデータに変換します。

 

このような変換されたデータは、ダミー変数と呼ばれています。ダミー変数に直すことで、カテゴリータイプのデータをそのまま数量タイプのデータとして重回帰分析に使うことができます。

 

ダミー変数に係る偏回帰係数は、他の説明変数の効果を取り除いたもとで、0とした分類コードの効果を0とした場合の1とした分類コードの相対的な効果の大きさを示しています。

3分類以上のダミー変数

 

3分類以上のダミー変数の場合、例としてはもとの3つの分類(0:現金、1:一般カード、2:プレミアカード)をとのまま区別して分析する手順を説明します。

 

つまり、一般カードとプレミアカードの違いの効果もさらに明らかにしようというわけです。

 

3分類以上のコードを持つカテゴリータイプのデータの場合、それぞれのカテゴリーの(有、無)を(1, 0)で対応させたダミー変数のセットを考えます。

 

この例では、ダミー変数A、ダミー変数B,ダミー変数Cを想定し、それぞれの支払いの形態が現金かそうでないか、一般カードかそうでないか、プレミアカードかそうでないかを表すとします。

 

つまり、現金で支払った客はダミー変数(A, B, C)=(1, 0, 0)、一般カードで支払った客はダミー変数(A, B, C)=(0, 1 0)、プレミアカードで支払った客はダミー変数(A, B, C)=(0, 0, 1)となります。

 

ところが、ここで3つの分類コードに対し3個のダミー変数を用意しましたが、実は1個のダミー変数は完全に無駄で、2個のダミー変数だけで各顧客の支払い形態3つを完全に区別することができます。つまり、ダミー変数AとBがそれぞれ0となれば、当然ダミー変数C=1ということがわかるからです。

 

したがって、3つ以上の分類コードをもつカテゴリー変数を説明変数に加える場合は、いつも分類コードの数より1少ない個数のダミー変数を作成し、それらを説明変数として通常の重回帰分析を行えばよいことになります。

 

このとき、複数のダミー変数に係る偏回帰係数は、ダミー変数として取られなかった分類コードの効果を0とした場合の、それぞれのダミー変数に対応する分類コードの相対的な効果の大きさを表しています。

 

この部分はとても重要で、よくこのことを誤解して単純に解釈される場合があるので注意しましょう。

セミナー詳細こちら                    解析ご相談こちら


 

ダミー変数【統計解析講義応用】

ダミー変数【統計解析講義応用】

ダミー変数【統計解析講義応用】