モデルに基づく推測|【統計学・統計解析講義応用】
モデル化
統計分析が対象とする問題は、複雑でしかも確率的な変動をします。
複雑なものを複雑であるといっては現象の理解につながりません。
統計的データ解析では、そのような複雑な現象をモデル化により分析しようとします。
モデル化には決定論的(deterministic)な部分と確率的(stochastic)な部分が含まれ、確率的な部分は確率分布によって表されます。
通常、確率分布は未知のパラメータを含み、その値を知ることが分析の1つの目的となります。
モデルはもちろん現実をなるべく正確に記述するものでなければなりません。
しかし、あまり複雑であってはいけません。
なるべく簡潔で、しかも現実をうまく記述するモデルがよいモデルといえます。
モデル選択
統計分析では複雑な現象をモデル化し、それを分析します。
しかし、候補となりうるモデルが複数ある場合、その中から1つ選ばなくてはなりません。
このことをモデル選択といいます。
よいモデルを選ぶためには、何らかの判定方法が必要で、情報量規準を用いたものとしては、赤池情報量規準(AIC)、BIC、竹内情報量規準(TIC)、また、記述長最小化原理(Principle of Minimum Description Length, MDL)などがあります。
コンピュータの力を大いに利用する方法としてはクロスバリデーション、ブートストラップ法などがあります。
モデルに基づく推測
母集団の確率分布をモデル化し、母集団からの無作為抽出によるデータを基に母集団の性質を知ろうとするタイプの推測法です。
統計の教科書では、母集団分布からの無作為標本を表す確率変数・・・という記述が見られますが、その背後にはこのモデルに基づく推測をするという意図があります。
このよな推測が可能な場合には、得られた分析結果の母集団全体への一般化は容易です(適切なモデルの選択は一筋縄ではいかないですが)。
しかし、母集団からの無作為抽出が不可能なことも少なくありません。その場合、計測に基づく推測が適切なものとなります。
関連記事