統計学の学習理論|【統計学・統計解析講義応用】
統計学の学習理論とは
「学習」は日常の言葉ですが、統計的データ解析では、システムのパラメータをデータによく合うように(逐次的に)更新するという意味に使います。
特に、ニューラルネットワークなどの非線形のシステムにおけるパラメータの更新に用います。
学習理論(learning theory)と称する分野が大きく発展しつつありますが、これも「勉強の仕方」ではなく、コンピューターによる自動的なシステムの最適化に関する理論体系の構築の意味です。
学習は大きく分けて教師付き学習と教師なし学習があります。
コンピュータによるシステムだけでなく実際の勉強にもフィードバックされうる内容があります。
学習用データセット
システムの学習では、過学習の問題、すなわち与えられたデータセットにはシステムがうまく適合するがそれ以外のデータセットでは不都合な結果を生じることが多くあります。
そこで、与えられた全データを学習用(training)、検証用(validation)、検査用(test)の3つに分けます。学習用データセットでモデルパラメータを推定し、検証用データセットでモデルの適合の度合いを吟味し、検査用データセットで最終的なモデルの妥当性の検証を行う方法が推奨されます。
各データセットの比率に一般的な法則はありませんが、おおむね学習用に50%、検証用に25%、検査用に25%とするのが一般的です。
過学習
ニューラルネットワークなどにおける学習において、学習用データセットには極めてうまく適合するが(適合しすぎて)、類似の外部データセットへの適合がかえって悪くなることをいいます。
これはモデルパラメータの個数が過剰なことに起因しますが、逆にパラメータ数を減らすと近似の精度が悪くなり、うまい解決法はありません。
データセットの一部を検証用に残しておくクロスバリデーションや、推定関数の複雑さに対して罰則化する方法等が提案されています。
いくつかのネットワークの候補を選んで実際に計算を実行させてみるのが一番です。
関連記事