過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
多変量解析において、説明変数が増加するとモデルは過学習のリスクに直面し、これを避けるために変数選択が重要となる。変数選択の手法には大きく二つのアプローチがある。一つ目は、偏回帰係数の統計的検定を使用し、有意でない変数をモデルから除外する方法である。二つ目は、自由度調整済み決定係数、AIC（赤池情報量規準）、CPなどのモデル選択基準を利用して、モデルの良さを判断する方法である。これらの規準は、モデルの複雑さを考慮しつつ、予測精度や適合度を評価する。変数選択法は、過学習を避け、予測精度の高いモデルを構築するために不可欠である。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

説明変数が増えると過学習に陥りやすい

偏回帰係数の検定による変数選択

選択規準を用いた変数選択

ChatGPTに聞いてみた

説明変数が増えると過学習に陥りやすい

説明変数の選択は、多変量解析における重要な問題の一つです。

その変数が目的変数の変動をよく説明するのかが、推定以前にはっきりとわかっていない場合は、いくつかの説明変数の候補から最良と思われる組み合わせを選んで、最終的に１つの回帰式を得ます。

重回帰モデルでは、説明変数が増えれば増えるほど当てはまりは良くなります（決定係数の値が１に近づきます）が過学習に陥りやすくなります。余分な説明変数は推定精度や予測精度を落としてしまう原因になります。

偏回帰係数の検定による変数選択

変数選択の方法の一つは、>偏回帰係数に関するｔ検定の結果を利用するものです。

例として、galaデータセット（ガラパゴス島の動物種のダイバーシティのデータ）を使います。

回帰診断で得られた結果をもとに、目的変数Speciesは平方根をとり、Isabelaを外れ値として取り除いておきます。

最小２乗推定量とｔ検定の結果、最も有意性が低い変数はｔ検定の結果Nearestで、Nearestの回帰係数を０と判定します。

残りの４つの変数を用いて重回帰モデルを再度あてはめます。

同様にここではScruzの回帰係数を０と判定します。

残りの３つの変数について重回帰モデルを当てはめます。

残りの３つの変数はいずれもt-検定の結果が有意となったので、これ以上は取り除きません。

すなわち、Area、Elevation、Adjacentの３変数モデルが選択され、

√Species＝3.56＋0.008×Area＋0.011×Elevation－0.0031×Adjacent

という重回帰モデルが得られました。

この例のように、候補となるすべての変数を含む重回帰モデル（フルモデル）から出発し、偏回帰係数に関するｔ検定の結果から有意性が低い変数を順次取り除く方法を、変数減少法（後退消去）といいます。

逆に、定数項だけのモデルに、変数をひとつ加えたときの偏回帰係数のｔ検定の有意性が最も高くなるものを順次加えていく方法は、変数増加法（前進選択）とよばれます。

また、変数減少法で一度取り除いた変数を再度モデルに含めることまで検討する変数減増法や、逆に一度モデルに取り込んだ変数を再度取り除くことを検討する変数増減法など、さまざまなバリエーションがあり、これらをまとめて逐次選択法とよびます。

いずれの方法でも、基準となるｐ値の境界は５％である必要はなく、１５％から２０％程度に設定するのが適当です。

選択規準を用いた変数選択

変数選択のもう一つの方法は、モデルの良さをはかる規準を用いる方法です。代表的な選択規準には、自由度調整済み決定係数、赤池情報量規準（AIC）、CPなどがあります。

自由度調整済み決定係数は、決定係数R2＝１－Se／St を自由度で調整したもので、

R2＝１－（（Se／（n－p－1））／（St／（ｎ－１））

と定義されます。

ここで、ｎはサンプル数、ｐは説明変数の数、Seは残差平方和、Stは全平方和です。

AICは、誤差の正規性の仮定のもとで、AIC＝nlog（Se/n）＋2（p＋1）と定義されます。

右辺第１項はモデルの最大対数尤度の－２倍であり、モデルの適合度を表します。

第2項は母数の増加に対する罰則を表します。

AICの小さいモデルほど望ましいモデルです。

CPは、CP＝Se/s2＋2（p＋1）－n と定義されます。

ただし、s2は、候補であるすべての説明変数を含むモデル（フルモデル）の誤差分散の不偏推定量であり、フルモデルの残差平方和をSe、説明変数の数をpとすると、
この推定量は、s2＝Se/（n－p－1）となります。

AICと同じく、第1項がモデルの適合度を、第2項が罰則を表します。

CPが小さいモデルほど望ましいモデルです。

可能であればすべてのモデル（説明変数の候補がp個であれば2のp乗通り）に関して、それが無理であれば逐次選択法によって、それぞれの規準を最適にするモデルを選択します。

Galaデータセットでは、説明変数の候補は５個ですから、2の5乗で32通りのすべてのモデルについて選択規準の値を計算することができます。

計算の結果、Ra2、AIC、CPのいずれの規準においても、t-検定と同じ、Area、Elevation、Adjacentの３変数モデルが選択されました。

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
多変量解析における変数選択について解説してください。
#制約条件：
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

多変量解析って、いっぱいデータを使って、何かを予測したり分析したりする手法のことだよ。でも、データが多すぎると、予測するモデルが「過学習」という状態になってしまって、新しいデータに対してうまくいかなくなるんだ。だから、大事なのは「変数選択」。これは、本当に必要なデータだけを選んで、モデルを作ること。方法は二つあって、一つ目は「これは大事！これはいらない！」とデータを選ぶやり方。二つ目は、特別な計算方法を使って、「この組み合わせが最高！」っていうのを見つけるやり方だよ。どちらも目的は同じ、予測力の高いシンプルなモデルを作ること。これができれば、予測もバッチリ、過学習も防げるってわけ！

関連リンク

フェーズ５（第５相）：普及の相【統計解析講義応用】

臨床研究の歴史的基盤【統計解析講義応用】

施設審査委員会（IRB）【統計解析講義応用】

適切な労働時間と休日数は【ビジネス統計解析】

1

2

3

4

5

6

過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】

過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

過学習回避！多変量解析の変数選択術【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

説明変数が増えると過学習に陥りやすい

偏回帰係数の検定による変数選択

選択規準を用いた変数選択

ChatGPTに聞いてみた

プロンプト

ChatGPTの回答

メニュー

サブメニュー

最新記事