データで解き明かす!統計的仮説検定の全貌【ChatGPT統計解析】
統計的仮説検定は、母集団に関する仮説を立て、データに基づきその正しさを検証する方法です。主な手順は、帰無仮説(H0)と対立仮説(H1)の設定、適切な検定統計量の選択、および有意性の評価です。第1種の過誤は帰無仮説が真の時に誤って棄却するリスク、第2種の過誤は対立仮説が真の際に帰無仮説を棄却できないリスクを指します。検定統計量の計算後、p値を用いて有意水準と比較し、帰無仮説を棄却するか否かを決定します。仮説検定の目的は、帰無仮説が真の場合の第1種の過誤を制御しつつ、対立仮説が真の時にこれを正しく識別する能力(検出力)を最大化することにあります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
仮説検定の手順
統計的検定あるいは仮説検定は、点推定、区間推定と並んで代表的な統計的推測法です。
母集団に対する仮説を立て、それが正しいかどうかをデータに基づいて検証することを目的とします。
例えば以下の問題を考えてみましょう。
サイコロを5回振り、そのうち4回1の目が出たとして、このサイコロは1の目が出やすいのであろうか、それともどの目が出る確率も均等だが偶然1の目が多く出たのであろうか、という問題です。
仮説検定はさまざまな方法が存在しますが、その一般的な手順は次のとおりです。
@仮説の設定:帰無仮説と対立仮説を設定する
A検定統計量の選択:適切な検定統計量を選択し、有意水準を決めておく
B有意性の評価:検定統計量の値を求め、棄却域に入るかどうか調べる。あるいは、検定統計量の値からp値を計算して有意水準と比較する
仮説の設定
仮説検定ではまず、否定したい仮説と、その仮説を否定することによって立証したい仮説を立てます。
前者を帰無仮説といい、後者を対立仮説といいます。
これらをそれぞれH0、H1などの記号で表します。
サイコロの例では、1の目が出る真の確率pが1/6よりも大きいかどうかを立証したいので、H0:p=1/6 vs. H1:p>1/6 と設定します。
一般に、母集団分布の形は既知として、その分布に含まれる未知パラメータθに関する仮説を立てることになります。
例えば、θ0を分析者が設定する定数として、H0:θ=θ0 vs. H1:θ≠θ0のように立てます。
問題設定によっては対立仮説がH1:θ>θ0のような不等号の形になります。
対立仮説が前者(等号否定)の形であれば両側検定といい、後者の形(不等号)であれば片側検定といいます。
なお、母集団分布の形が未知であれば、分布の形自体に関する仮説を立て、ノンパラメトリック法を用いることもあります。
検定統計量の選択
仮説を設定したら、続いて仮説検定を行うための検定統計量を計算します。
サイコロの例では、1の目が出た回数Xそのものを検定統計量として用います。
一般には、検定統計量は仮説上の未知パラメータθの推定量θ-hatの関数で与えられます。
一つの検定問題に対して複数の検定統計量が候補となる場合もあります。
しかし実際には検出力の関係から適切なものを一つ選ぶことになります。
有意性の評価
サイコロの例で、帰無仮説が真ならば5回中4回以上1の目が出る確率は約0.0033と計算できます(二項分布の確率計算)。
この確率は非常に小さいため、帰無仮説が真であるが偶然このようなことが起こったと考えるよりは、対立仮説が真であるからこそ起こったと考えるほうが妥当といえます。
このように、統計的検定は背理法と同じような論理により、帰無仮説を否定するために帰無仮説を真と仮定して矛盾(検定統計量の値の帰無仮説からの乖離)を導き出します。
帰無仮説が真のときには起こりがたいくらい検定統計量の値が大きい(あるいは小さい)のであれば、帰無仮説は偽であると判断することになります。
帰無仮説が偽であり対立仮説が真であると結論づけることを、帰無仮説を棄却する、あるいは統計的に有意であるといいます。
また、帰無仮説が偽であると言い切れなかった場合には、帰無仮説を受容する(または棄却しない)あるいは統計的に有意でない、といいます。
これは、帰無仮説を積極的に受け入れるわけではなく、帰無仮説が真であるか偽であるか判断できず、帰無仮説をやむなく受け入れている状態です。
仮説検定では、帰無仮説が真のときに帰無仮説を誤って棄却してしまう、つまり有意であると判断してしまう確率αを有意水準といい、有意水準以下におさえます。
有意水準αは問題設定に応じて0.05あるいは0.01などと設定されることが多く、これらは分析者があらかじめ決めておくべき値です。
この有意水準の設定により、帰無仮説を棄却する検定統計量の範囲が定まります。
この範囲のことを棄却域といい、その境界値を棄却限界といいます。
それに対応して、標本から得られた検定統計量の値がちょうど棄却限界となるような有意水準のことをp値あるいは有意確率といいます。
すなわち、分析前に定めた有意水準よりもp値が小さい場合、帰無仮説を棄却することができます。統計パッケージソフトではこのp値が出力されるものがほとんどです。
第1種の過誤と第2種の過誤
仮説検定では、帰無仮説が真のときに誤って棄却してしまう場合もわずかながら存在します。
帰無仮説が真のときに誤って棄却してしまう誤りを第1種の過誤といいます。
反対に、対立仮説が真のときに帰無仮説を棄却できない誤りを第2種の過誤といいます。
第2種の過誤の確率を1から引いたものを1−βで表し、検出力とよびます。
第1種の過誤の確率を有意水準以下に抑えつつ、検出力をなるべく大きくしようとするのが統計的検定の基本的な考え方です。
常に検出力が最大となるような検定が存在するとき、その検定のことを「一様最強力検定」といいます。
第1種の過誤の確率は有意水準と一致するのが望ましいですが、必ずしもそうならない場合があります。
第1種の過誤の確率が有意水準よりも小さく、有意になりにくいような検定のことを保守的であるといいます。
また、対立仮説が真のときに検出力が有意水準以下にならないような検定のことを不偏検定といいます。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
統計的仮説検定について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
統計的仮説検定っていうのは、簡単に言えば、「このデータから、うちの仮説が正しいかどうかを確かめる方法」だよ。例えば、あるクラスで「このクラスのテストの平均点は国語より数学の方が高いかな?」と思ったら、その仮説が本当かどうかをデータを使って調べるわけ。まず、仮説を二つ立てる。ひとつは「国語と数学の平均点に差はない」という帰無仮説。もうひとつは「数学の方が平均点が高い」という対立仮説。で、データを集めて、本当に数学の方が平均点が高いかどうかを調べるの。調べ方には「検定統計量」という数値を使って、それがどれくらいの確率で起こるかを見る。確率がすごく低い(たとえば5%未満)場合、帰無仮説を「うーん、やっぱり違うかも」と棄却して、対立仮説を採用するの。でもね、注意が必要で、たまには誤って帰無仮説を棄却しちゃうこともあるし、逆に対立仮説が正しいのに見逃しちゃうこともあるんだ。これを第1種の過誤と第2種の過誤って言うんだよ。