赤池情報量規準(AIC)|モデルは変数が多すぎても(過学習)少なすぎても(誤差大)いけない【統計学・統計解析講義基礎】
変数の多い複雑なモデルはデータにあてはまりすぎ(過学習)、変数の少ないモデルは頑健だが誤差が大きくなるので、バランスが大切である。赤池情報量規準(AIC)が指標
統計モデルの複雑性
回帰分析では、重回帰分析の方が、直線回帰分析よりも最小2乗法で残差平方和が小さくなるので、より予測精度の高い、優れた分析手法ではないか、と思われるかもしれません。
変数を多くした方が、確かに観測値へのあてはまりがよいので、より良いモデルであると一見思います。
しかし、果たして本当にそうでしょうか。
上の図は、アルドステロンという体の水分量の調節に関与するホルモンの変動をあらわしたものです。
血中アルドステロン濃度は早朝に高くなり深夜に低くなるので、このような周期的な日内変動をします。
さて、左はこの変動を3変数の重回帰モデルにあてはめた結果で、右は9変数の重回帰モデルにあてはめた結果です。どちらの方が良いでしょうか。
モデルの観測値へのあてはまりについては確かに3変数モデルより9変数モデルのほうが良いですが、9変数というのはあまりに変数が多すぎないでしょうか。
この場合総合的に考えると、左の方が妥当な推定といえます。
右は確かに観測値に忠実に複雑な推定をしていますが、果たしてアルドステロンがこのように変動するという医学的根拠はどこにあるのでしょうか。
また、偶々この患者さんの観測値で予測ができたものの、別の患者さんの観測値で同じモデルを使用したら、同じような予測は果たしてできるでしょうか。
逆に言えば、3変数のモデルの方が、より多くの観測値のパターンにあてはめることができる、といえるわけです。
このようなモデルを頑健(ロバスト)なモデルといいます。
一方、モデルが頑健であればあるほど、観測値と予測値の差(誤差)は大きくなります。
直線回帰分析が良い例です。
あまり頑健すぎても予測の精度は劣化してしまいます。
変数は多すぎても少なすぎてもいけません。
では、どの程度の按配のモデルが適切なモデルなのでしょうか。
赤池情報量規準(AIC)
これについては、過去に多くの統計学者が数多くの説を提唱してきましたが、最も多く使われている基準として、日本の誇る数理統計学者、赤池弘次先生の提唱した赤池情報量規準(AIC)があります。
式の意味の詳細は割愛しますが、最初の項がデータのあてはまりのよさを表す項、第2項が変数の数をあらわす項です。
赤池情報量規準(AIC)は小さい方がよく、あてはまりがよくかつ変数が少ないモデルが良いモデルということになります。
モデルは複雑でない頑健なモデルの方が良いですが、あてはまりのよさも重要です。
モデルの良さの指標としては赤池情報量規準(AIC)があります。