パラメトリックvsノンパラ:統計の選択術【ChatGPT統計解析】
パラメトリック手法は、母集団が特定の確率分布(正規分布やt分布など)に従っているという仮定の下で使用される統計手法です。これらの手法は、母数(母平均や母標準偏差)を推定することを目的としています。一方で、ノンパラメトリック手法は、母集団の確率分布を特定できない、または仮定しない場合に使用される手法で、データの順序やランクに基づいて分析を行います。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
パラメトリック:母集団が確率分布にしたがう
統計学でパラメトリックとか、ノンパラメトリックという言葉をよく耳にします。
パラメトリックは、パラメータ(母数)に由来します。
母数とは、母集団の特性を示す統計量です。
前提として、母集団が正規分布やt-分布などの確率分布にしたがっていることが条件になります。
母数は私たちにはわかりません。神様だけが知っています。
母数を表記するときにギリシア文字を使いますが、それはつまりギリシア神話から来ています。
ギリシャ神話 神のみぞ知る ギリシア文字ということです。
母平均はμ(ミュー)、母標準偏差はσ(シグマ)を用います。
さて問題のパラメトリックですが、パラメータの形容詞なので、母数を推定するための統計学的手法をパラメトリックな手法と呼びます。
母集団が正規分布に従っていれば、母平均、母標準偏差を標本の平均や標準偏差を求め推測することがパラメトリックな手法といえるでしょう。
また、母集団がt-分布であれば、2群の差のt検定もまたパラメトリックな手法といえます。
ノンパラメトリック:確率分布が仮定できない
ノンパラメトリックとは、パラメトリックの反対で、確率分布は全く関係ありません。
ノンパラメトリックという言葉は検定でよく使われます。
例えばウィルコクソンの順位和検定はノンパラメトリック検定として有名ですが、これはt-検定のようなt-分布といった確率分布に基づく検定ではありません。
データの大きさよりは順序を重視し、順序統計量を算出して検定する手法です。
確率分布が仮定できない場合、たとえばデータがとびとびであるとか、順序の情報しかない(例えば−、+、++など)場合は、ノンパラメトリックな手法が有効です。
検定で、t-検定のようなパラメトリック検定がよいか、ウィルコキソンの順位和検定のようなノンパラメトリック検定がよいか、迷うことがあります。
データがとびとびともいえるし、そうでないともいえるようなデータです。
例えば、0,1,2,3,4 といった整数値のみとるような場合です。
正解はないのですが、ノンパラメトリック検定では順序で解析するため、データの大きさの情報が損なわれます。
データの情報を損失したくないのであれば、パラメトリック検定の方をおすすめします。
なお、統計ソフトでよく、正規性の検定というのを見かけます。
正規性の検定で有意でない場合はパラメトリックな手法は使えないのではないかと考えてはいけません。
サンプル数が20とか30とか少ない場合は、仮に正規性があっても、正規性の検定で有意にならない場合が多いです。
しかし、連続変数はパラメトリックな手法を適用するというのが基本です。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
ノンパラメトリック検定について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
ノンパラメトリック検定っていうのは、データがどんな形でもいいから、そのデータの特徴を比べる方法なんだ。パラメトリック検定と違って、データが正規分布してるかとか、そういうの気にしなくてもOK。たとえば、「このクラスのテストの点数とあのクラスの点数、どっちが高いかな?」って調べたい時に使えるよ。データがいろんな形であっても、どっちが大きいか小さいか、似てるか違うかっていうのを調べることができるんだ。サイコロを振る回数が少ない時や、とっても変わった形のデータがある時にも役立つよ。簡単に言えば、「いろんなデータに対応できる、柔軟な比較方法」ってこと。