フィッシャーの正確検定で小規模データを解明!【ChatGPT統計解析】
フィッシャーの正確確率検定は、小さなデータセットや分布が偏っているデータに適した、カイ二乗検定に似たノンパラメトリック検定です。この検定は超幾何分布を基に、観測された分布やそれ以上に極端な分布が現れる確率を正確に計算します。特に2×2の表で使用されることが多く、手動での計算は複雑なため、統計ソフトやオンライン電卓を使うことが一般的です。例として、新しい違法薬物が若年成人の突発的な心臓死に影響を与えるかどうかを調べた際、カイ二乗検定ではデータ不足で対応できなかったが、フィッシャー検定により片側p値が0.157と算出されました。この値は有意水準0.05を超えているため、薬物が心臓死のリスクを高めるという仮説は棄却されませんでした。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学におけるフィッシャーの正確確率検定
フィッシャー(Ronald Fisher)の正確確率検定(多くの場合、単にフィッシャーの検定と呼ばれる)はカイ2乗検定に似たノンパラメトリック検定であるが、カイニ乗検定の分布要件を満たさない小さなデータ集合や分布が疎なデータ集合で利用できる。
フィッシャーの検定は超幾何分布に基づいており、表に見られる分布やより極端な分布を観測する正確な確率を計算するので、名前に「正確」という単語が入っている。
これは漸近検定ではないので、カイ2乗検定に適用する疎な場合の規則は関係ない。
通常、フィッシャーの検定を計算するには(特に2×2より大きな表では)、計算に反復性があるため統計ソフトを使用する。
2×2の表の簡単な例では次のようになる
路上で販売される特定の薬物と若年成人の突発心不全の関係を調べたいとする。
この薬物は違法かつこの地域では初めてであり、突発心臓死は若年成人では稀なので、カイ2乗検定を実施するだけの十分なデータが収集できなかった。
以下表に分析のためのデータを示す。
フィッシャーの正確確率検定:新規篥物の使用と若年成人の突発心臓死の関係を計算する
仮説は次のようになる。
帰無仮説:新規薬物の使用者の突発心臓死の危険性は未使用者よりも高くない。
対立仮説:新規薬物の使用者の方が突発心臓死の危険性が高い。
フィッシャーの正確確率検定では、少なくとも調査で観測された結果と同等に極端な結果となる確率を計算する。
この調査より極端な結果とは、薬物使用者と薬物未使用者が突発心臓死に見舞われる割合の差が実際のデータよりも大きくなる結果である(標本サイズは同じ)。
より極端な結果の1つを以下表に示す。
薬物使用と心臓死の例での、より極端なデータ分布
2×2の衣で正確確率を求める式を以下に示す。
フィッシャーの正確確率検定の式
この式では!は階乗を意昧し(4!=4×3×2×1)、セルと周辺値は以下表に示す表記法を使って表す。
表の表記法
この例では、a=8、b=1、c=4、d=7、r1=9、r2 = 11、c 1 = 12、c2=8、n= 20である。
なぜこの表の方が観測結果よりも極端なのだろうか。
薬物使用と突発心臓死に関係がなければ、以下表の分布になると見込まれるからである。
独立と仮定した場合の期待データ
観測データの方が薬物使用と心臓死に強い関係があるので(薬物使用者の死者が期待値よりも多い)、この関係が観測値よりも強い表は、より極端なので、薬物使用と心臓死が独立であれば起こりにくくなる。
フィッシャーの正確確率検定のp値を手動で求めるには、より極端なすべての裏の確率を求めて合計する必要がある。
幸いにも、フィッシャーの検定を計算するアルゴリズムがほとんどの統計ソフトウェアに用意されており、多くのオンライン電卓でもこの統計量を計算できる。
表のデータでのフィッシャーの正確確率検定の片側p値は0.157であることがわかる。
片側検定を使うのは、仮説が片側だからである。
新規薬物の使用により心臓死の危険性が高まるかどうかを調べたい。
α水準0.05を使うとこの結果は有意ではないので、新規薬物により心臓死の危険性が高まらないという帰無仮説を棄却できない。
関連リンク