パラメトリックとノンパラメトリック|母集団が確率分布にしたがうか否か【統計学・統計解析講義基礎】
パラメトリックは母集団が確率分布にしたがう場合に用いる統計手法で、ノンパラメトリックは確率分布が仮定できない場合に用いる統計手法。連続変数はパラメトリックな手法を適用するのが基本
パラメトリック:母集団が確率分布にしたがう
統計学でパラメトリックとか、ノンパラメトリックという言葉をよく耳にします。
パラメトリックは、パラメータ(母数)に由来します。
母数とは、母集団の特性を示す統計量です。
前提として、母集団が正規分布やt-分布などの確率分布にしたがっていることが条件になります。
母数は私たちにはわかりません。神様だけが知っています。
母数を表記するときにギリシア文字を使いますが、それはつまりギリシア神話から来ています。
ギリシャ神話 神のみぞ知る ギリシア文字ということです。
母平均はμ(ミュー)、母標準偏差はσ(シグマ)を用います。
さて問題のパラメトリックですが、パラメータの形容詞なので、母数を推定するための統計学的手法をパラメトリックな手法と呼びます。
母集団が正規分布に従っていれば、母平均、母標準偏差を標本の平均や標準偏差を求め推測することがパラメトリックな手法といえるでしょう。
また、母集団がt-分布であれば、2群の差のt検定もまたパラメトリックな手法といえます。
ノンパラメトリック:確率分布が仮定できない
ノンパラメトリックとは、パラメトリックの反対で、確率分布は全く関係ありません。
ノンパラメトリックという言葉は検定でよく使われます。
例えばウィルコクソンの順位和検定はノンパラメトリック検定として有名ですが、これはt-検定のようなt-分布といった確率分布に基づく検定ではありません。
データの大きさよりは順序を重視し、順序統計量を算出して検定する手法です。
確率分布が仮定できない場合、たとえばデータがとびとびであるとか、順序の情報しかない(例えば−、+、++など)場合は、ノンパラメトリックな手法が有効です。
検定で、t-検定のようなパラメトリック検定がよいか、ウィルコキソンの順位和検定のようなノンパラメトリック検定がよいか、迷うことがあります。
データがとびとびともいえるし、そうでないともいえるようなデータです。
例えば、0,1,2,3,4 といった整数値のみとるような場合です。
正解はないのですが、ノンパラメトリック検定では順序で解析するため、データの大きさの情報が損なわれます。
データの情報を損失したくないのであれば、パラメトリック検定の方をおすすめします。
なお、統計ソフトでよく、正規性の検定というのを見かけます。
正規性の検定で有意でない場合はパラメトリックな手法は使えないのではないかと考えてはいけません。
サンプル数が20とか30とか少ない場合は、仮に正規性があっても、正規性の検定で有意にならない場合が多いです。
しかし、連続変数はパラメトリックな手法を適用するというのが基本です。