t検定で探る: グループ間の平均値の謎【ChatGPT統計解析】
t検定は、二つのグループ間の平均値の差を評価する統計手法です。この手法では、帰無仮説(二つのグループの効果が同じ)と対立仮説(効果が異なる)を設定し、データから検定統計量tを計算し、t分布からp値を導き出します。p値が5%未満であれば帰無仮説を棄却し、対立仮説を支持します。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
帰無仮説と対立仮説
仮説検定というのはトリッキーな方法で、
「Aを直接証明することが難しいときに、Aが成り立たないと仮定すると矛盾を生ずることを示すことによってAが成り立つことを証明する」
という論理展開(背理法といいます)を用います。
例えば、高血圧に有望な画期的な新薬候補品、薬剤Zの臨床試験を進めたとします。
そのためにはまず帰無仮説と対立仮説を立てます。
帰無仮説:「高血圧に対する薬剤Z投与群とプラセボ(偽薬)投与群の効果は同じである」
対立仮説:「高血圧に対する薬剤Z投与群とプラセボ(偽薬)投与群の効果は異なる」
帰無仮説というのは読んで字のごとく、「無に帰すべき仮説」です。薬剤Zがプラセボと有効率が等しい、つまり効かないということがわかったところで誰もうれしくありません。
言いたいことは対立仮説、つまり薬剤Zが効く、という方なのですが、残念ながらこれを直接証明することは極めて難しいのです。
等しいという仮説は、差がゼロという基準に基づいた確率分布に基づいたロジックに落とし込むことが容易ですが、違うという仮説は、差がΔという基準の設定が必要で、もう一つ複雑な手続きが要求されます。
したがって、帰無仮説を仮定して矛盾を導き、対立仮説が成り立つことを示そうとすることは、一見まわりくどいのですが、実はこちらの方が(変な話ではあるが)楽なのです。
こういった、仮説検定のまわりくどい二重否定のロジックは、統計解析がとっつきにくい原因の一つですが、これも慣れなので、最初は難しくても、何度か経験し慣れていきましょう。
それでは先の薬剤Zの話をもう少し具体的に掘り下げてみましょう。
検定統計量tの確率分布(t分布)
22人の高血圧の患者さんを集め、うち11人に薬剤Zを、11人に偽薬(プラセボ)を服用してもらう、という実験を行いました。
服用1時間後に血圧を測定したところ、以下の結果となりました(単位mmHg)。
薬剤Z 120118117121123123119121122120123
プラセボ124120124123122121120124124124122
さて、このデータに対し、仮説検定を試みてみましょう。
再度、帰無仮説と対立仮説を確認します。
帰無仮説:「高血圧に対する薬剤Z投与群とプラセボ(偽薬)投与群の効果は同じである」
対立仮説:「高血圧に対する薬剤Z投与群とプラセボ(偽薬)投与群の効果は異なる」
次に、tという検定統計量を計算します。
検定統計量は、手元にあるデータ(標本)のみから以下の式により算出されるものです。
tの分子は平均値の差なので、差がゼロであればtはゼロとなります。t=0でちょうど帰無仮説が成り立ちます。
差があればtはゼロにはなりません。
この検定統計量tの確率分布(t分布)は、ゼロを中心としたつりがね型の分布になります。
このつりがね型のt分布は、帰無仮説が成立する確率を示したものです。
tの値が0とは帰無仮説そのものですから、当然確率密度は最も高く、差があればあるほど、つまりtの値の絶対値が大きければ大きいほどつりがねの中央からは離れていきます。
薬剤Zとプラセボの効果が同じであるという帰無仮説を設定し、検定統計量tを計算したところt0になったとします。
そのようなt0値という値が得られる確率は、図の赤色領域の面積で与えられます。
これがいわゆるp値です。
その確率p値がある基準値(有意水準)、例えば5%(0.05)より小さくなったときは「薬剤Zとプラセボの効果は同じである」という帰無仮説は信じられないとして、「薬剤Zとプラセボの効果は差がある」という対立仮説を採用します。
t検定を使う場面
なお、新薬のように未知のものの効果を明らかにしたい場合にt検定は有効ですが、差が明らかである場合でもt検定は無理やり使うことはできます。
たとえば、「10円玉と500円玉の重さが同じである」という帰無仮説をたてたとしましょう。
この場合、重さは明らかに違うのでこの帰無仮説は間違っているのですが、t値を計算すると確実に分布のはるか端のほうの値になるはずです。
そのことを確認できれば、帰無仮説を否定して「10円玉と500円玉は重さが違う」という対立仮説を採用することになります。
しかし、この例のように明らかに異なる場合普通t検定はしません。
t検定を実施するのは同じか違うか判断が微妙な場合です。
さて、先の薬剤Zとプラセボの効果についてのt検定ですが、実際に検定統計量t0の値を計算するとt0=-2.41と算出されます。
t値の絶対値が2.41より大きくなる確率は0.0259となります。
さて、この結果をもって帰無仮説を否定するかどうかですが、一般的な基準として、この確率すなわちp値が0.05未満であれば、帰無仮説を否定し対立仮説を採用します。
この基準を有意水準と言います。
したがってこの例では対立仮説を採用することができます。
つまり、「薬剤Zはプラセボに比べ血圧を有意に低下させる」という結論に至るのです。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
t検定について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
t検定は、2つのグループの平均が本当に違うのかどうかを調べるための方法です。例えば、りんごとバナナ、どちらの方が甘いか知りたいとします。りんごから何個か、バナナからも何個か選んで、甘さを点数でつけてみます。でも、選んだ果物によって、たまたま甘かったり、そうでなかったりするかもしれませんよね。そこで、t検定を使って、「りんごとバナナの甘さに、本当に差があるのか?」を統計的に調べます。t検定には大きく分けて2種類あります。「1群のt検定」は、ある一つのグループの平均が、特定の値と違うかを調べる時に使います。一方、「2群のt検定」は、先ほどのりんごとバナナのように、2つのグループの平均が違うかどうかを調べる時に使います。この検定をする時、まず「りんごとバナナの甘さに差はない」という仮説を立てます。それからデータ(甘さの点数)を集めて、その仮説が正しいかどうかを統計的に分析します。もし、統計的に差があると出れば、「やっぱり、りんごとバナナの甘さは違うんだ」という結論になります。でもこれは、「絶対」というわけではなく、「かなりの確率でそうだろう」ということです。