t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
t検定は、二つのグループ間の平均値の差を評価する統計手法です。この手法では、帰無仮説（二つのグループの効果が同じ）と対立仮説（効果が異なる）を設定し、データから検定統計量tを計算し、t分布からp値を導き出します。p値が5%未満であれば帰無仮説を棄却し、対立仮説を支持します。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次 t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

帰無仮説と対立仮説

検定統計量ｔの確率分布（ｔ分布）

ｔ検定を使う場面

ChatGPTに聞いてみた

帰無仮説と対立仮説

仮説検定というのはトリッキーな方法で、

「Aを直接証明することが難しいときに、Aが成り立たないと仮定すると矛盾を生ずることを示すことによってAが成り立つことを証明する」

という論理展開（背理法といいます）を用います。

例えば、高血圧に有望な画期的な新薬候補品、薬剤Ｚの臨床試験を進めたとします。

そのためにはまず帰無仮説と対立仮説を立てます。

帰無仮説：「高血圧に対する薬剤Z投与群とプラセボ（偽薬）投与群の効果は同じである」

対立仮説：「高血圧に対する薬剤Z投与群とプラセボ（偽薬）投与群の効果は異なる」

帰無仮説というのは読んで字のごとく、「無に帰すべき仮説」です。薬剤Ｚがプラセボと有効率が等しい、つまり効かないということがわかったところで誰もうれしくありません。

言いたいことは対立仮説、つまり薬剤Ｚが効く、という方なのですが、残念ながらこれを直接証明することは極めて難しいのです。

等しいという仮説は、差がゼロという基準に基づいた確率分布に基づいたロジックに落とし込むことが容易ですが、違うという仮説は、差がΔという基準の設定が必要で、もう一つ複雑な手続きが要求されます。

したがって、帰無仮説を仮定して矛盾を導き、対立仮説が成り立つことを示そうとすることは、一見まわりくどいのですが、実はこちらの方が（変な話ではあるが）楽なのです。

こういった、仮説検定のまわりくどい二重否定のロジックは、統計解析がとっつきにくい原因の一つですが、これも慣れなので、最初は難しくても、何度か経験し慣れていきましょう。

それでは先の薬剤Ｚの話をもう少し具体的に掘り下げてみましょう。

検定統計量ｔの確率分布（ｔ分布）

２２人の高血圧の患者さんを集め、うち１１人に薬剤Ｚを、１１人に偽薬（プラセボ）を服用してもらう、という実験を行いました。

服用１時間後に血圧を測定したところ、以下の結果となりました（単位mmHg）。

薬剤Ｚ　120118117121123123119121122120123

プラセボ124120124123122121120124124124122

さて、このデータに対し、仮説検定を試みてみましょう。

再度、帰無仮説と対立仮説を確認します。

帰無仮説：「高血圧に対する薬剤Z投与群とプラセボ（偽薬）投与群の効果は同じである」

対立仮説：「高血圧に対する薬剤Z投与群とプラセボ（偽薬）投与群の効果は異なる」

次に、ｔという検定統計量を計算します。

検定統計量は、手元にあるデータ（標本）のみから以下の式により算出されるものです。

ｔの分子は平均値の差なので、差がゼロであればｔはゼロとなります。ｔ=0でちょうど帰無仮説が成り立ちます。

差があればｔはゼロにはなりません。

この検定統計量ｔの確率分布（ｔ分布）は、ゼロを中心としたつりがね型の分布になります。

このつりがね型のｔ分布は、帰無仮説が成立する確率を示したものです。

ｔの値が０とは帰無仮説そのものですから、当然確率密度は最も高く、差があればあるほど、つまりtの値の絶対値が大きければ大きいほどつりがねの中央からは離れていきます。

薬剤Ｚとプラセボの効果が同じであるという帰無仮説を設定し、検定統計量ｔを計算したところt0になったとします。

そのようなt0値という値が得られる確率は、図の赤色領域の面積で与えられます。

これがいわゆるp値です。

その確率p値がある基準値（有意水準）、例えば5%（0.05）より小さくなったときは「薬剤Ｚとプラセボの効果は同じである」という帰無仮説は信じられないとして、「薬剤Ｚとプラセボの効果は差がある」という対立仮説を採用します。

ｔ検定を使う場面

なお、新薬のように未知のものの効果を明らかにしたい場合にｔ検定は有効ですが、差が明らかである場合でもｔ検定は無理やり使うことはできます。

たとえば、「10円玉と500円玉の重さが同じである」という帰無仮説をたてたとしましょう。

この場合、重さは明らかに違うのでこの帰無仮説は間違っているのですが、ｔ値を計算すると確実に分布のはるか端のほうの値になるはずです。

そのことを確認できれば、帰無仮説を否定して「10円玉と500円玉は重さが違う」という対立仮説を採用することになります。

しかし、この例のように明らかに異なる場合普通ｔ検定はしません。

ｔ検定を実施するのは同じか違うか判断が微妙な場合です。

さて、先の薬剤Ｚとプラセボの効果についてのｔ検定ですが、実際に検定統計量t0の値を計算するとt0＝-2.41と算出されます。

ｔ値の絶対値が2.41より大きくなる確率は0.0259となります。

さて、この結果をもって帰無仮説を否定するかどうかですが、一般的な基準として、この確率すなわちp値が0.05未満であれば、帰無仮説を否定し対立仮説を採用します。

この基準を有意水準と言います。

したがってこの例では対立仮説を採用することができます。

つまり、「薬剤Ｚはプラセボに比べ血圧を有意に低下させる」という結論に至るのです。

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
t検定について解説してください。
#制約条件：
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

t検定は、2つのグループの平均が本当に違うのかどうかを調べるための方法です。例えば、りんごとバナナ、どちらの方が甘いか知りたいとします。りんごから何個か、バナナからも何個か選んで、甘さを点数でつけてみます。でも、選んだ果物によって、たまたま甘かったり、そうでなかったりするかもしれませんよね。そこで、t検定を使って、「りんごとバナナの甘さに、本当に差があるのか？」を統計的に調べます。t検定には大きく分けて2種類あります。「1群のt検定」は、ある一つのグループの平均が、特定の値と違うかを調べる時に使います。一方、「2群のt検定」は、先ほどのりんごとバナナのように、2つのグループの平均が違うかどうかを調べる時に使います。この検定をする時、まず「りんごとバナナの甘さに差はない」という仮説を立てます。それからデータ（甘さの点数）を集めて、その仮説が正しいかどうかを統計的に分析します。もし、統計的に差があると出れば、「やっぱり、りんごとバナナの甘さは違うんだ」という結論になります。でもこれは、「絶対」というわけではなく、「かなりの確率でそうだろう」ということです。

関連リンク

不適合品【統計解析講義応用】

伝統的理論の種類【統計解析講義応用】

ロジスティック回帰分析の目標【多変量解析】

ウェブ関連部門での成功事例【ビジネス統計解析】

1

2

3

4

5

6

t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】

t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

t検定で探る: グループ間の平均値の謎【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

帰無仮説と対立仮説

検定統計量ｔの確率分布（ｔ分布）

ｔ検定を使う場面

ChatGPTに聞いてみた

プロンプト

ChatGPTの回答

メニュー

サブメニュー

最新記事