仮説検定と信頼区間:統計解析の真実【ChatGPT統計解析】
仮説検定は統計解析の手法で、特定の仮説がデータによって支持されるかを評価します。このプロセスでは、効果がないことを示す帰無仮説と、効果があることを示す対立仮説を設定し、検定統計量とp値を計算して帰無仮説の棄却を検討します。p値が5%未満なら帰無仮説を棄却し、対立仮説を支持します。しかし、仮説検定は効果の大きさを直接提供せず、大きなサンプルサイズでは微小な差も有意とされる問題があります。そのため、結果の解釈には95%信頼区間などの効果の大きさを示す指標も用いることが推奨されています。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
仮説検定とは
統計解析といえば仮説検定を思い浮かぶ人も多いのではないかと思います。
そのくらい、仮説検定は統計学の中で昔から市民権を得てしまっているのですが、正直私は仮説検定は好きではありません。
いきなり何を言い出すのかと思われるかもしれませんが、実際そうだから仕方ないです。
しかし、論文などでよく引き合いに出されるので、仕方なしに仮説検定を勉強しているというのが正直な気持ちです。
ではなぜ私は仮説検定が好きではないのでしょう。
帰無仮説と対立仮説
私は基本的に、ストレート直球でわかりやすいのが好きです。
しかし、仮説検定というのは二重否定の世界なのです。
たとえば薬について考えます。
実際の薬は、ニセの薬(プラセボ)に比べ、効果があることは誰もが期待するところでしょう、だからこそ薬を飲むわけで、ニセの薬と同じ効果だったらわざわざ飲みません。
しかし、仮説検定では先ず、
「実際の薬とニセの薬の効果は等しい」
というとんでもない仮説を設定するのです。
これを帰無仮説といいます。呼んで字のごとく、無に帰するべき、とんでもない仮説です。
「実際の薬の効果はニセの薬の効果より大きい」
これが対立仮説です。私たちが本来欲しいのはこちらの仮説です。
それなら、はじめから「実際の薬とニセの薬の効果には有意な差がある」を仮説(対立仮説)にしたらいいじゃないか、なぜこんな回りくどいことをするのか、不思議に思うかもしれません。
一方、「差がない」という仮説(帰無仮説)を設定することのメリットもあります。
それは、「差がゼロ」ということですから、差の大きさに関する議論が不要になるというメリットです。
「差がある」ことを仮説にすると、「じゃあその差をいくらにしたらいいのか」という議論が一手間余計にかかり、面倒なのです。
逆に、差がゼロを仮定した方がその後の論理展開が楽であるということです。
ですので、回りくどい二重否定(論理学で言う背理法)ですが、この回りくどいのにも慣れる必要があります。
検定統計量とp値
先ず、実際の薬のデータと、ニセの薬のデータをとります。
これらのデータつまり標本から、検定統計量というものを計算します。
検定統計量で有名なものとしては、t-統計量があります。
これは、平均値の差を、平均値の差の分散の平方根で割るという方法で計算します。
帰無仮説が正しければ、平均値の差はゼロ、つまりt-統計量はゼロになります。
このt-統計量は、中心がゼロのつりがね型のt-分布という確率分布をしますが、ちょうどゼロの中心が帰無仮説に相当します。
そして、標本から得られたtの値が中心から離れれば離れるほど、帰無仮説は怪しいということになります。
そして、tの値が中心からかなり離れた位置、t-分布の末端にあるとき、帰無仮説はウソである、と判定し、「実際の薬とニセの薬の効果には有意な差がある」とみなします。
この判定基準は、t-分布の両端の曲線下面積すなわちp値が両端合わせて5%(それぞれ2.5%)を超えるかどうかを判定の境目とします。
これがt-検定です。
t-検定ではp値はt-分布に基づいて計算します。
p値はいろいろな確率分布で計算できます(カイ2乗検定のp値はカイ2乗分布で計算します)。
p値が5%を切れば、帰無仮説は否定されます。
そして、p値が5%を切るような帰無仮説は信じられないとみなそう、ということです。
仮説検定は大きさの情報を与えない
私が仮説検定が好きではない本当の理由は、このまわりくどさではありません。
最大の理由は、仮説検定が大きさの情報を与えてくれないのです。
有意差がある、という結論だけでは、どの位の有意差かわかりません。
最悪なのは、有意差がなかった(p>0.05)場合です。
この場合は、差があるともいえないし、同じともいえません。
全く何の情報も与えてくれないのです。
また、標本サイズが大きい場合(千以上とか)、微小な差でも有意差が出てしまう場合がありますが、この場合は本当に差があるのか、疑わしくなります。
仮説検定のもたらす情報というのは、非常に少ないということは知っておいてください。
したがって、検定の結果に加え、95%信頼区間なども併せて表示することをおすすめします。
95%信頼区間は、単なる仮説検定と違い、大きさの情報を与えてくれます。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
仮説検定について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
仮説検定とは、ある考え(仮説)が正しいかどうかを調べる方法です。たとえば、「このサイコロは正しいサイコロだ」という考えがあるとします。この考えを確かめるために、サイコロを何回か振ってみます。もし、6が異常に多く出るなら、「このサイコロはおかしいかも」と疑うわけです。仮説検定では、まず「このサイコロは正しい」という「帰無仮説」と、「このサイコロは正しくない」という「対立仮説」を立てます。そして、実際にデータ(サイコロを振った結果)を集めて、帰無仮説が正しいかどうかを統計的に調べます。もし、データが「このサイコロは正しくない」という対立仮説を支持するなら、帰無仮説を棄却(捨てる)して、サイコロがおかしいと結論づけるわけです。しかし、これは「完全に確か」というわけではなく、「かなりの確率でそうだろう」という判断です。仮説検定を通じて、私たちはデータから何が言えるか、何を信じるべきかを考えるのです。