風邪薬の統計学【統計解析講義応用】

風邪薬の統計学【統計解析講義応用】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

風邪薬の統計学|【統計学・統計解析講義応用】

風邪薬の統計学【統計解析講義応用】


目次  風邪薬の統計学【統計解析講義応用】

 

 

風邪薬の統計学

 

風邪をひきました。なので風邪薬を飲んで寝ました。

 

すると、翌朝には風邪は治りました。

 

さて、ここで質問です。

 

この風邪薬は効きましたか?

 

「はい」と答える人が少なからずいると思います。

 

では「はい」と答えた人にさらに質問です。

 

もし風邪薬を飲まずに寝たら、翌朝には風邪は治っていませんでしたか?

 

この答えは誰にもわからないはずです。

 

なぜなら、「風邪薬を飲まずに寝る」ということをしていないからです。

 

もし、風邪薬を飲まずに寝ても翌朝には風邪が治っていたならば、風邪薬は効いたことになりませんね。

 

あれ、じゃあ、風邪薬飲まなくていいのではないですか。

 

でも、もしかしたら、風邪薬を飲まずに寝ていたら治っていた可能性も否定できません。

 

では、いったいどうすれば風邪薬の効果って調べられるのでしょうか。

 

その方法を考えるのが統計学です。

 

統計学というと、数学の仲間でやたら数式が出てくるイメージがあるかもしれません。

 

大学などで統計学の講義を受けたことのある人の中には、数式がだんだん難しくなってきたなあ。そろそろ意識を失いそうだ。

 

というところに、お偉い先生方の名前が付いた複雑な数式が出てきたりして、ますます意識が遠のく、よくわからないままなんとか単位は取ったものの、ふと気づくと「統計学って何の役に立つの?」という疑問だけが残っている人もいるでしょう。

 

確かに、統計学では数式をよく使います。

 

しかし、複雑な数式の内容や実際の計算は、統計の専門家や一部の数学好きな人が理解すればよいのであって、それ以外の人にとってはそれほど重要なことではありません。

 

難しい数式を使わなければならない統計処理は、今やコンピューターがやってくれます。

 

ましてや、文献にある統計結果をみる場面では数式はほとんど必要ありません。統計が教えてくれる有益な情報を正しく見極める、ということにおいては、実際に複雑な計算をする必要はないのです。

 

先ほどの風邪薬の話において、大切なことは「どうすれば風邪薬の効果を調べられるのか」を知ることであり、「これで風邪薬の効果が証明できるのか」が判断できることなのです。

 

これは、数式を使わなくても、統計学の基本的な考え方さえマスターすれば、ある程度できることです。

 

コントロールの重要性

 

Aさんが風邪薬の飲んで寝たら、翌朝に風邪が治るか?治らないか?

 

を考えます。

 

もし風邪が治ったのなら、

 

風邪薬を飲んで風邪が治った、だから風邪薬は効いた

 

と思うかもしれません。

 

しかし、話はそんなに単純ではありません。

 

もし、Aさんが風邪薬を飲まずに寝て翌朝に風邪が治っていなかったとしたら、

 

風邪薬を飲まなかったから風邪が治らなかった、やっぱり風邪薬は効く

 

ということになるかもしれませんが、もし風邪薬を飲まなくても治ったとしたら、

 

風邪薬を飲まなかったが風邪が治った、だから風邪薬は無関係

 

ということになります。

 

このことからわかるように、風邪薬が効くかどうかを調べるためには、

 

「実際に風邪薬を飲んだAさん」が治ったかどうか、

 

ということに加えて、同時に

 

「風邪薬を飲まなかったAさん」が治ったかどうか、

 

ということまで知らなければならないことになります。

 

しかし、当たり前のこととして、実際に薬を飲んだ人がもし薬を飲まなかったらどうなっているか、なんてことはわかるはずがありません。

 

Aさんは一人しかいないんですから。

 

では、どうすれば薬の効果を調べられるでしょうか。

 

実際に薬を飲んだ人がもし薬を飲まなかったらどうなっていたか、ということは現実にはわかりません。

 

けれども、「薬を飲んだ」という状況のことをコントロールと言います。

 

「実際に薬を飲んだAさん」がもし薬を飲まなかったら、という場合の結果は現実にはわからないけれども、もしもこれがわかれば薬の効果がわかることになるので、いわば「理想のコントロール」ということになります。

 

しかし悲しいかな、「理想のコントロール」はしょせん理想に過ぎず、実現は不可能なのです。

 

実際に薬を飲んだAさんは観察できますが、もし薬を飲まなかったら観察はできません。

 

そこで現実問題として、どうにかして「理想のコントロール」に限りなく近いコントロールをなんとかして実現できないか、・・・と統計家たちは涙ぐましい努力をするわけです。

 

現実に薬を飲まなかった、いわゆる「現実のコントロール」を、理想のコントロールに近づければ近づけるほど、純粋な薬の効果を評価することにつながるのです。

 

では、現実のコントロールをどうやって理想のコントロールに近づけていくのでしょうか。

 

とにかく集めてみる

 

Aさんは一人しかいないのですから、実現可能なこととしては、Aさん以外の薬を飲まなかった誰かと比べるしかありません。

 

Aさんがひいたのは一般的な風邪であり、同じ症状の風邪をひいた人は何人もいたと考えてみましょう。

 

その中には、薬を飲んだ人もいれば飲まなかった人もいるでしょう。

 

Aさん一人では薬の効果がわからないのならば、多くの人を集めてきて、その中で薬を飲んだ人のうち何%の人が治ったか、薬を飲まなかった人のうち何%の人が治ったか、を計算して比較する、ということを考えます。
「薬を飲まなかった人たち」のグループを「コントロールグループ」と呼びます。

 

実際に薬を飲まなかった「現実のコントロール」になるわけです。

 

ではここで、Aさんと同じ症状の風邪をひいた人を100人集められたとします。

 

その中で、薬を飲んだ人が40人、飲まなかった人が60人いたとします。

 

このうち、一晩寝て翌朝に風邪が治った人は、薬を飲んだ人たちのグループで32人、薬を飲まなかった人たちのグループ(コントロールグループ)で12人だったとします。
すると、

 

薬を飲んで治ったのは 32/40=80%

 

薬を飲まずに治ったのは 12/60=20%

 

となります。

 

飲んだ8割の人が治って、飲まなかった8割の人が治らなかった、薬はどうやら効いたように見えます。

 

ところが、今までの話だけでは「薬が効いた」とはまだまだ言えないのです。

 

え、あんなに差が出ていたのに、と思われるかもしれませんが、どういうことなのでしょう。

 

先ほど集めた100人の人たち、風邪をひいた人を適当に集めてきましたけれども、どんな人たちがグループにいるのかよく見てみたら、なんと、薬を飲んだ人たちのグループは全員20歳代、コントロールグループ(薬を飲まなかった人たち)は全員80歳代でした。

 

これは極端な例ですが、もし2つのグループ間に、薬を飲んだか否か以外の明らかな差異(この場合は年齢)があるとしたら、先ほどの「8割が治った」「2割しか治らなかった」という比較も、単純に「薬を飲んだから治る確率4倍だ!」とは素直に言えなくなってきますね。

 

「薬が効いたから風邪が治った」のではなくて、「若くて体力があるから(薬を飲んだか飲まなかったかとは無関係に)風邪が治った」のかもしれません。

 

ではどうすればいいのか。2つのグループ間の差異が問題となるなら、答えは簡単、差異をなくせばよいのです。

 

 

ランダム化の重要性

 

平均年齢を揃えてみる

 

とは言っても一体どうすればよいのか、途方に暮れる前に少し発想を転換してみましょう。

 

実際に「薬を飲んだ人」「薬を飲まなかった人」の年齢は後から変えられません。後から変えられないのであれば、事前に操作してみてはどうでしょうか。

 

要するに

 

「薬を飲んだ人」「飲まなかった人」ではなく、あらかじめ「薬を飲む人」「飲まない人」を人為的に決めてしまうのです。

 

先ほどの100人のグループで、薬を「飲む」「飲まない」をあらかじめ決めるとして、2つのグループの平均年齢を近づけるようにするには、どうすればよいでしょうか。

 

100人のうち、40人が20歳代、60人が80歳代だったと仮定するなら、単純にそれぞれの年齢層の半数の人たちを「薬を飲む」、残り半数の人たちを「薬を飲まない」グループに分けてしまえば、年齢層だけに限っていえば、解決するのです。

 

こうすれば、条件は同じことになります。

 

この、人為的に薬を飲むか飲まないかを操作することを割り付けと言います。

 

もちろん、先ほどの仮定は極端な例ですので実際はここまで単純にはいきませんが、グループ間の年齢の差異を小さくすることができるのです。

 

こうすれば、薬が効くかどうか調べるときに年齢の影響は受けなくなりますね。

 

若くて体力があるから風邪が治っただけで薬の効果は関係なかったのかもしれない、ということはあり得ません。

 

このようにして、年齢の問題はクリアできました。

 

様々な要因

 

でも、風邪が治りやすいか否かに影響するものは年齢だけでしょうか。

 

そんなことはありません。

 

普段から運動の習慣のある人は体力があって風邪が治りやすいかもしれないし、もしかしたらこの風邪薬が効きやすい体質の人がいるかもしれません。

 

したがって、

 

薬の効果を調べるには、薬を飲むか飲まないか以外の風邪が治るか否かに影響するすべての要因を、薬を飲むグループと飲まないグループとで揃えなければなりません。

 

先ほどは年齢に限った仮定でしたので簡単でしたが、生活習慣・体質などすべての要因を考慮に入れるとすると、2つのグループを等しくするような計算は、具体的にどうするかはさておき、とても複雑になりそうですね。

 

頭の良い人ならできるのかもしれませんが、現実的には困難です。

 

それにもし計算できるとしても、それは私たちが観察できる要因だけなのです。

 

観察できない要因の存在について、少しみてみましょう。

 

観察できない要因

 

年齢や性別の要因を観察することは難しくありません。

 

生活習慣の要因も細部にわたればなかなか容易にはいきませんが、把握することは不可能ではないかもしれません。

 

しかし、「観察できない要因」というものも存在します。

 

例えば「風邪薬が効きやすい体質」という要因について考慮するとした場合、「風邪薬が効きやすい体質」が特定の遺伝子を有していることだと仮定して、必要となる前提は、

 

その遺伝子が何なのかがわかっている

 

その遺伝子を持っているかどうかがきちんと測定できる

 

です。

 

その遺伝子が何なのかがわからなければそもそも話になりませんし、遺伝子自体の特定ができたとしても、その遺伝子を持っているかどうかが正しく測定できないならば、意味がありません。

 

もしこの条件が揃わなければ、「風邪薬が効きやすい体質」という要因は「観察できない要因」となってしまうわけです。

 

しかしこれらの潜在的な要素を考慮せずして、薬の効果を調べることはできないのです。

 

薬の効果を調べるには、観察できる要因だけでなく、観察できない要因もすべて、薬を飲むグループと飲まないグループで揃えなければならないのです。

 

ランダム化

 

ではどうすればよいでしょうか。

 

計算は複雑、おまけに観察できない要因についても考慮しなければいけないなんて、ちょっと話も小難しくなってきたし、そろそろ嫌になってきたぞ、と投げ出す前に朗報です。

 

実は、観察できようができまいが、すべての要因を2つのグループで(平均的に)揃える方法があるのです。

 

ランダム化(無作為化)と呼ばれる方法です。

 

ランダム化は、言葉の通り、薬を飲むか飲まないかをランダムに(無作為に)割り付ける方法です。

 

例えば、コイントスして、表が出たら薬を飲むグループに入ってもらう、裏が出たら薬を飲まないグループに入ってもらう、ということをします。

 

薬を飲むか飲まないかがランダムに決まるということは、薬を飲むか飲まないかが年齢にも運動の習慣にも体質にも依存しないということです。

 

例えば、これまでの100人の例で考えてみると、20歳代の人であろうと80歳代の人であろうと、コインの表が出る確率は1/2=50%です。

 

20歳代の人ほどコインの表が出やすい、なんてことはありません。

 

だから、20歳代の人は50%の確率で薬を飲むグループに割り付けられることになるし、80歳代の人も50%の確率で薬を飲むグループに割り付けられることになります。

 

これは、運動の習慣がある人でもない人でも同じだし、風邪薬が効きやすい体質の人、効きにくい体質の人でも同じです。

 

つまり、

 

ランダム化することによって、どちらかのグループに年齢の高い人や運動の習慣のある人、風邪薬が効きやすい体質の人が偏る可能性が低くなります。

 

ランダム化により、薬を飲むか飲まないか以外のすべての要因が、薬を飲むグループと飲まないグループとで(平均的に)揃っていくことになるのです。

 

ということは、実際に薬を飲まなかった人たちの「現実のコントロールグループ」が、実際に薬を飲んだ人たちがもし薬を飲まなかったら、という「理想のコントロールグループ」に近づいていくことになるのです。

 

しかし、コイントスで決めたとして、たまたま年齢がグループで偏ってしまったらどうするのか。

 

万が一、全員がコインの裏を出して、みんな薬を飲まなかったらそもそも比較できないよ、という疑問もあるかもしれませんが、大丈夫なのです。

 

確かに、理屈の上ではこのようなことが起こりえます。

 

でも、全員がコインの裏を出してしまう確率はとても小さいのです。

 

仮に10人の人をランダムに割り付けするとしたら、全員が薬を飲まないグループに割り付けられる確率は、

 

1/2 の10乗で0.1%です。

 

「10人の人をランダム割り付けする」という作業を1000回やって1回起こるかどうか、です。

 

この確率は、人数が増えれば増えるほどさらに小さくなっていきます。

 

同じように、年齢などの薬を飲むか飲まないか以外の要因も、人数が増えれば増えるほど、どちらかのグループに偏る可能性は小さくなっていくのです。

 

 

風邪薬の統計学【統計解析講義応用】


セミナー詳細                    解析ご相談                    LINEでお友達

風邪薬の統計学【統計解析講義応用】

風邪薬の統計学【統計解析講義応用】