変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】

変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】

変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】
多変量解析では、説明変数が増えると過学習に陥りやすいため、変数選択が重要である。変数選択には、偏回帰係数の検定による方法と、自由度調整済み決定係数・AIC・CPなどの選択規準を利用する方法がある


目次  変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】

 

説明変数が増えると過学習に陥りやすい

 

説明変数の選択は、多変量解析における重要な問題の一つです。

 

その変数が目的変数の変動をよく説明するのかが、推定以前にはっきりとわかっていない場合は、いくつかの説明変数の候補から最良と思われる組み合わせを選んで、最終的に1つの回帰式を得ます。

 

重回帰モデルでは、説明変数が増えれば増えるほど当てはまりは良くなります(決定係数の値が1に近づきます)が過学習に陥りやすくなります。余分な説明変数は推定精度や予測精度を落としてしまう原因になります

 

偏回帰係数の検定による変数選択

 

変数選択の方法の一つは、>偏回帰係数に関するt検定の結果を利用するものです。

 

例として、galaデータセット(ガラパゴス島の動物種のダイバーシティのデータ)を使います。

 

変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】

 

回帰診断で得られた結果をもとに、目的変数Speciesは平方根をとり、Isabelaを外れ値として取り除いておきます。

 

最小2乗推定量とt検定の結果、最も有意性が低い変数はt検定の結果Nearestで、Nearestの回帰係数を0と判定します。

 

残りの4つの変数を用いて重回帰モデルを再度あてはめます。

 

同様にここではScruzの回帰係数を0と判定します。

 

残りの3つの変数について重回帰モデルを当てはめます。

 

残りの3つの変数はいずれもt-検定の結果が有意となったので、これ以上は取り除きません。

 

すなわち、Area、Elevation、Adjacentの3変数モデルが選択され、

 

√Species=3.56+0.008×Area+0.011×Elevation−0.0031×Adjacent

 

という重回帰モデルが得られました。

 

この例のように、候補となるすべての変数を含む重回帰モデル(フルモデル)から出発し、偏回帰係数に関するt検定の結果から有意性が低い変数を順次取り除く方法を、変数減少法(後退消去)といいます。

 

逆に、定数項だけのモデルに、変数をひとつ加えたときの偏回帰係数のt検定の有意性が最も高くなるものを順次加えていく方法は、変数増加法(前進選択)とよばれます。

 

また、変数減少法で一度取り除いた変数を再度モデルに含めることまで検討する変数減増法や、逆に一度モデルに取り込んだ変数を再度取り除くことを検討する変数増減法など、さまざまなバリエーションがあり、これらをまとめて逐次選択法とよびます。

 

いずれの方法でも、基準となるp値の境界は5%である必要はなく、15%から20%程度に設定するのが適当です。

 

 

選択規準を用いた変数選択

 

変数選択のもう一つの方法は、モデルの良さをはかる規準を用いる方法です。代表的な選択規準には、自由度調整済み決定係数、赤池情報量規準(AIC)、CPなどがあります。

 

自由度調整済み決定係数は、決定係数R2=1−Se/St を自由度で調整したもので、

 

R2=1−((Se/(n−p−1))/(St/(n−1))

 

と定義されます。

 

ここで、nはサンプル数、pは説明変数の数、Seは残差平方和、Stは全平方和です。

 

AICは、誤差の正規性の仮定のもとで、AIC=nlog(Se/n)+2(p+1)と定義されます。

 

右辺第1項はモデルの最大対数尤度の−2倍であり、モデルの適合度を表します。

 

第2項は母数の増加に対する罰則を表します。

 

AICの小さいモデルほど望ましいモデルです。

 

CPは、CP=Se/s2+2(p+1)−n と定義されます。

 

ただし、s2は、候補であるすべての説明変数を含むモデル(フルモデル)の誤差分散の不偏推定量であり、フルモデルの残差平方和をSe、説明変数の数をpとすると、
この推定量は、s2=Se/(n−p−1)となります。

 

AICと同じく、第1項がモデルの適合度を、第2項が罰則を表します。

 

CPが小さいモデルほど望ましいモデルです。

 

可能であればすべてのモデル(説明変数の候補がp個であれば2のp乗通り)に関して、それが無理であれば逐次選択法によって、それぞれの規準を最適にするモデルを選択します。

 

Galaデータセットでは、説明変数の候補は5個ですから、2の5乗で32通りのすべてのモデルについて選択規準の値を計算することができます

 

計算の結果、Ra2、AIC、CPのいずれの規準においても、t-検定と同じ、Area、Elevation、Adjacentの3変数モデルが選択されました。

 

 

変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】


セミナー詳細                    解析ご相談                    LINEでお友達

変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】

変数選択:偏回帰係数の検定または選択規準の利用|自由度調整済み決定係数・AIC・CP【統計学・統計解析講義基礎】