Python・R・エクセルによるデータサイエンス | 統計解析講義

推測統計学で重要な仮説検定【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

推測統計学で重要な仮説検定【統計解析講義基礎】

推測統計学で重要な仮説検定【統計解析講義基礎】


推測統計学で重要な仮説検定【統計解析講義基礎】

 

目次  推測統計学で重要な仮説検定【統計解析講義基礎】

 

仮説検定

 

統計解析といえば仮説検定を思い浮かぶ人も多いのではないかと思います。

 

そのくらい、仮説検定は統計学の中で昔から市民権を得てしまっているのですが、正直私は仮説検定は好きではありません。

 

いきなり何を言い出すのかと思われるかもしれませんが、実際そうだから仕方ないです。

 

しかし、論文などでよく引き合いに出されるので、仕方なしに仮説検定を勉強しているというのが正直な気持ちです。

 

ではなぜ私は仮説検定が好きではないのでしょう。

 

私は基本的に、ストレート直球でわかりやすいのが好きです。

 

しかし、仮説検定というのは二重否定の世界なのです。

 

たとえば薬について考えます。

 

実際の薬は、ニセの薬(プラセボ)に比べ、効果があることは誰もが期待するところでしょう、だからこそ薬を飲むわけで、ニセの薬と同じ効果だったらわざわざ飲みません。

 

しかし、仮説検定では先ず、

 

「実際の薬とニセの薬の効果は等しい」

 

というとんでもない仮説を設定するのです。これを帰無仮説といいます。呼んで字のごとく、無に帰するべき、とんでもない仮説です。

 

そして、実際の薬のデータと、ニセの薬のデータをとります。

 

これらのデータつまり標本から、検定統計量というものを計算します。

 

検定統計量で有名なものとしては、t-統計量があります。

 

これは、平均の差を、平均の差の分散の平方根で割るという方法で計算します。

 

帰無仮説が正しければ、平均の差はゼロ、つまりt-統計量はゼロになります。

 

このt-統計量は、中心がゼロのつりがね型のt-分布という確率分布をしますが、ちょうどゼロの中心が帰無仮説に相当します。

 

そして、標本から得られたtの値が中心から離れれば離れるほど、帰無仮説は怪しいということになります。

 

そして、tの値が中心からかなり離れた位置、t-分布の末端にあるとき、帰無仮説はウソである、と判定し、「実際の薬とニセの薬の効果には有意な差がある」とみなします。

 

この判定基準は、t-分布の両端の曲線下面積が合わせて5%(それぞれ2.5%)の部分を判定の境目とします。

 

つまり、確率が5%を切るような話は信じられないとみなそう、ということです。

 

それなら、はじめから「実際の薬とニセの薬の効果には有意な差がある」を仮説にしたらいいじゃないか、なぜこんな回りくどいことをするのか、不思議に思うかもしれません。
一方、「差がない」を仮説にすることのメリットもあります。

 

それは、「差がゼロ」ということですから、差の大きさに関する議論が不要になるというメリットです。

 

「差がある」ことを仮説にすると、「じゃあその差をいくらにしたらいいのか」という議論が一手間余計にかかり、面倒なのです。

 

逆に、差がゼロを仮定した方がその後の論理展開が楽であるということです。

 

ですので、回りくどい二重否定ですが、この回りくどいのにも慣れる必要があります。

 

しかし、私が仮説検定が好きではない本当の理由は、このまわりくどさではありません。

 

最大の理由は、仮説検定が大きさの情報を与えてくれないのです。

 

有意差がある、という結論だけでは、どの位の有意差かわかりません。

 

最悪なのは、有意差がなかった(p>0.05)場合です。

 

この場合は、差があるともいえないし、同じともいえません。全く何の情報も与えてくれないのです。

 

また、標本サイズが大きい場合(千以上とか)、微小な差でも有意差が出てしまう場合がありますが、この場合は本当に差があるのか、疑わしくなります。

 

仮説検定のもたらす情報というのは、非常に少ないということは知っておいてください。

 

したがって、検定の結果に加え、信頼区間なども併せて表示することをおすすめします。

セミナー詳細こちら                    解析ご相談こちら


 

 

推測統計学で重要な仮説検定【統計解析講義基礎】

推測統計学で重要な仮説検定【統計解析講義基礎】

推測統計学で重要な仮説検定【統計解析講義基礎】