クロスバリデーション|【統計学・統計解析講義応用】
クロスバリデーション
学習用のデータとテスト用のデータに分けてモデルの構築・テストを行う方法として、クロスバリデーション(cross validation: 交差確認、交差検証)という方法があります。
クロスバリデーションでは、データセットの標本全体をn等分に分割し、そのうちの1等分をテスト用のデータ、それ以外のn−1等分を学習用のデータとします。
データセットをn等分したとき、n重クロスバリデーション(n-fold cross validation)といいます。
N重クロスバリデーションでは、重複しない組み合わせでn回のモデルの構築とテスト(確認、検証)を行い、そのn回のテスト結果の平均を全体の評価に用います。
データマイニングの分野では、n重クロスバリデーションが多く用いられています。
関連記事