カイ2乗検定の舞台裏:データの戦い【ChatGPT統計解析】
カイ2乗検定は、頻度(比率)データに基づく仮説検定の一種で、観測度数と期待度数の差異を検討します。この検定の帰無仮説は、観測度数が期待度数に等しいというものです。カイ2乗統計量は、観測度数と期待度数の差を二乗し、期待度数で割った値の総和によって計算されます。この統計量が大きければ大きいほど、帰無仮説が正しくない可能性が高まります。カイ2乗統計量はカイ2乗分布に従い、この分布を用いてp値を算出し、有意性の評価を行います。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
頻度(比率)データの仮説検定
次に、何例中何例といった頻度(比率)のデータにおける仮説検定の方法について紹介します。
慢性前立腺患者100人に、無作為に新薬と対照薬(プラセボ)を各群に投与し、効果を調べたところ、表のような結果が得られました。
観測度数と期待度数
表中の28、35、22、15といった数値は、その事象が実際に発生した数で、観測度数と言います。
このような場合も、仮説検定の考え方を適用することができます。
2群の差が0である、つまり、2群に差がないというのがt検定における帰無仮説でした。
一方このケースでは「新薬も対照薬も効果がまったく同じだった場合、調査結果はこうなるであろう」という仮想状態を考えます。
この例では、効果あり/なしの割合が、新薬も対照薬も変わらないという帰無仮説です。
したがって、新薬も対照薬も
効果あり:効果なし=63:37
となっていることが期待されます。
言い換えれば、効果ありの割合が新薬も対照薬も0.63ということです。
新薬、対照薬いずれも50人で試験を実施したので、
50×0.63=31.5人が効果ありということになります。
50×0.37=18.5人は効果なしということになります。
この31.5や18.5という値を期待度数といいます。
実際のデータでなく、「新薬と対照薬が同じ効果である」と仮定した場合の仮想の度数です。
カイ2乗統計量とカイ2乗検定
さて、これらの観測度数と期待度数が同じ(一致する)場合を帰無仮説としましょう。
つまり、「新薬と対照薬は効果が同じである」という帰無仮説を立てるのです。
そして、観測度数と期待度数のずれが大きくなればなるほど、帰無仮説は信じられないということになります。
この、観測度数と期待度数のずれを測る指標がカイ2乗統計量です。
カイ2乗統計量は、(観測度数−期待度数)の2乗を期待度数で割ったものの総和です。
カイ2乗統計量がゼロであるということは、新薬と対照薬は効果が同じであるという意味です。
この例でカイ2乗統計量を計算すると、χ2=2.102 となります。
カイ2乗統計量は図のようなカイ2乗分布にしたがいます(自由度1の場合)。
このグラフで、α=0.05となる値は3.84であり、2.102より大きい値ですから、帰無仮説は棄却されず、有意差はないという結論になります。
またはp値を直接計算すると0.147となり、5%を超えるため、帰無仮説は棄却されず、有意差はないという結論になります。
これがカイ2乗検定です。
とっつきにくい仮説検定
仮説検定は、二重否定の考え方のため、とっつきにくいのは事実です。
ストレート、直球がシンプルでわかりやすい私たちにとって、このようなまわりくどい二重否定をすぐには理解できないのは仕方ないことです。
また、この例のように「有意差が認められなかった」という場合は、有意差が否定されただけで、「等しい」というわけではないのです。
こういう話をすると、仮説検定って本当に意味があるのか、と思ってしまい、勉強するモチベーションすら低下してしまいます。
実際私自身仮説検定は優れた手法であるとは全く思っていません。
自ら論文発表するときも仮説検定は行わずに95%信頼区間で説明します(2群の差の95%信頼区間がゼロを横切らないということと、2群の差が5%有意水準で有意であるとは同義です)。
信頼区間の方がより情報量が多く親切なのです。
しかし、残念ながら多くの公表論文で仮説検定を当たり前のように使っています。
これらの結果の解釈のためには仮説検定を勉強しておくことは必要不可欠なのです。
必要悪と思って仮説検定を勉強するしかありません。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
カイ2乗検定について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
カイ2乗検定は、実際のデータがある予想(期待値)とどれだけ違うかを調べる方法です。お菓子の袋を想像してみてください。中には、チョコ、キャンディ、ガムが入っていて、全部で同じ数だと予想されています。でも、実際に袋からお菓子を取り出して数えてみたら、チョコばかり多くて、キャンディやガムが少なかったとします。ここで、カイ2乗検定を使って、「本当に予想通りにお菓子が均等に入っているのか?」を調べるわけです。この検定は、カテゴリー(分類されたグループ)のデータに対してよく使われます。例えば、ある病気に対する治療法AとBがあり、どちらが効果的かを調べたいときにも使えます。患者を2つのグループに分けて、それぞれの治療法を試し、どれだけ回復したかを見ます。そして、カイ2乗検定で、2つの治療法の効果に差があるかどうかを統計的に調べるのです。簡単に言うと、カイ2乗検定は「実際の結果が、予想(期待)とどれくらい違うか?」を数値で示し、その違いがたまたまか、何か理由があるのかを調べる方法です。でも、この検定が「絶対」というわけではなく、「大体こんな感じだろう」という推測に過ぎません。