研究に必要なサンプルサイズ|【医療統計学・統計解析】
研究に必要なサンプルサイズ
まずは次の新聞記事を読んでみてください。
〇〇大の研究グループは、1歳未満の赤ちゃんが、苦境に立つ弱者に対して同情の念を抱き、それを態度で示すことを実験で明らかにしたと発表した。
従来、生後18か月の幼児が痛みを訴える大人に同情を示したとの研究結果があるが、人間には生まれながらにして思いやりの気持ちがある可能性を示す成果という。
実験は、他者を認識して行動し始めるとされる生後10カ月の赤ちゃん40人を対象とした。
四角(黄色)と丸(青色)が画面を動き回る動画を用意、赤ちゃんを2つのグループに分け、それぞれに(1)図形が互いに接触せずに動く、(2)片方が片方を一方的に小突いて攻撃しているように動く、ものを見せた。
(2)のグループは、四角が丸を攻撃するパターンと、丸が四角を攻撃するパターンに分けた。
その後、赤ちゃんの前に、立方体(黄色)と球体(青色)のスポンジ状の立体2つを並べてどちらに手を伸ばすかを調べた。
(1)のグループの赤ちゃんは、選んだ立体にほとんど差はなかった。一方、(2)のグループは8割の赤ちゃんが、自分が見た動画で攻撃されていた側の立体を選んだ。
この研究はランダム化研究です。
もし仮に、赤ちゃん40人が(1)と(2)それぞれのグループに20人ずつ割り付けられたとすると、(2)のグループで攻撃されていた側の立体を選んだ割合は16/20=80%です。
(1)のグループでは「ほとんど差はなかった」と書かれているので、差が縮まる方向に傾いたとして、11/20=55%と想定してみましょう。
これを計算してみると、リスク差は16/20-11/20=0.25(95%信頼区間:-0.03-0.53)、両側p値は8.0%で、有意差なしです。
医学的にはまったく何の意味もないような差であっても、人数が多いだけで有意差ありとなってしまうことがあれば、医学的にはとても意味があるような差であっても、人数が少ないだけで、有意差なしとなってしまうこともある、と述べました。
この研究では人数が少なかっただけなのかもしれません。
では、本当に赤ちゃんが攻撃されていた側の立体を選ぶ傾向にあるのか、を検証するためには、何人の赤ちゃんを集めてランダム化研究を実施すればよいのでしょうか?
まず、仮想的なランダム化研究の例を挙げて、医学的にはまったく何の意味もないような差であっても、人数が多いだけで有意差ありとなってしまう状況と、医学的には意味があるような差であっても、人数が少ないだけで有意差なしとなってしまう状況をみてみましょう。
差はなくても有意差あり
サザエさん症候群(日曜日の夕方サザエさんを見た後、翌日からまた通学・通勤をしなければならないという現実に直面して憂鬱になり、体調不良や倦怠感を訴える症状)に対して、カウンセリングを受けるか受けないかによって3カ月以内に症状が改善するかどうかを調べるランダム化臨床研究を行ったとします。
そうしたら、2000人の人が参加してくれて、次のような結果が得られました。
カウンセリングを受け、症状が改善した:350人
カウンセリングを受け、症状が改善しなかった:650人
カウンセリングを受けず、症状が改善した:300人
カウンセリングを受けず、症状が改善しなかった:700人
リスク差を計算すると、350/1000−300/1000=0.05 です。
このカウンセリングにはあまり意義がないように思いますね。
しかし、統計的仮説検定をしてみると、両側p値=1.7%で「有意差あり」となります。
95%信頼区間は0.01-0.09でした。
このように、医学的には意味がないような差であっても、人数が多いだけで有意差ありとなってしまうことがあるのです。
今度は、同じくサザエさん症候群について、別のカウンセリングを受けるか受けないかによって3カ月以内に症状が改善するかどうかを調べるランダム化臨床研究を行ったとします。
そうしたら、20人の人が参加してくれて、次のような結果が得られました。
カウンセリングを受け、症状が改善した:6人
カウンセリングを受け、症状が改善しなかった:4人
カウンセリングを受けず、症状が改善した:3人
カウンセリングを受けず、症状が改善しなかった:7人
リスク差を計算すると、6/10-3/10=0.30です。
このカウンセリングには意義がある可能性を感じますね。
しかし、統計的仮説検定をしてみると、
両側p値=15.7%で「有意差なし」となります。
95%信頼区間は-0.12-0.72 でした。
このように、医学的には意味があるような差であっても、人数が少ないだけで「有意差なし」となってしまうことがあるのです。
問題は「研究に参加する人数」
これまでみてきたように、ただ漫然と人を集めてきて、ただ漫然と統計的仮説検定をするだけでは、「有意差」が「医学的に意味のある差」について何も言及していないことになってしまいます。
統計的仮説検定をすることにあまり意義がなくなってしまうのです。
問題は、研究に参加してくれる人数です。
医学的に意味のある差があるか否かにかかわらず、人数が多いだけで有意差あり、人数が少ないだけで有意差なし、となってしまっているわけです。
だったら、ただ漫然と人を集めてくるのではなくて、事前に、
医学的に意味のある差があるときに有意差あり
医学的に意味のある差がないときに有意差なし
となるように、研究に参加してもらう人数を決めると、あらかじめ計算しておけばよいわけです。
こうしてから研究を実施すれば、有意差が医学的に意味のある差に合致することになります。
このように、人数の多い少ないによって起こり得る問題を起こさないように、事前に計算して研究に参加してもらう人数を決めることをサンプルサイズ設計とか症例数設計と言うことがあります。
人数が多いと、医学的な差<統計的な差
ちょうどいいところは、医学的な差=統計的な差
人数が少ないと、医学的な差>統計的な差
第一種の過誤
さて、では、どのようにサンプルサイズ設計を行うか、ということですが、
その前に、ランダム化臨床研究の例で、帰無仮説と有意水準をみていきましょう。
薬を飲むグループで風邪が治った人:70人
薬を飲グループで風邪が治らなかった人:30人
薬を飲まなかったグループで風邪が治った人:60人
薬を飲まなかったグループで風邪が治らなかった人:40人
帰無仮説(リスク差=0)が正しいと仮定したときに、たまたまの偶然の影響によってリスク差が0にならないことがあります。
両側p値=5%に相当する部分です。
つまり、データから計算されたリスク差が、この5%に相当する横軸の値を超えたら、有意差ありということになります。
この可能性の低いことが本当に起こってしまったら、本当は差がないのに誤って差があると判断してしまうことになります。
このように誤って判断してしまうことを第一種の過誤とかαエラーとか言ったりします。
第一種の過誤(αエラー)
本当は差がないのに、誤って差があると判断してしまう間違い
有意水準を両側5%と定めることによって、第一種の過誤が起こる可能性を5%に抑えている、ともいえるわけです。
第二種の過誤(βエラー)
比較するグループのリスクに違いがない、という帰無仮説に対して、今度は、比較するグループのリスクに違いがある、という仮説を考えてみましょう。
このような仮説は、帰無仮説に対して対立仮説と呼びます。
帰無仮説と対立仮説は2つで1セットです。
帰無仮説が間違っていると判断するときには、同時に、対立仮説が間違っているとは言えないと判断することになります。
逆に、帰無仮説が間違っているとは言えないと判断するときには、同時に、対立仮説が間違っていると判断することになります。
本当は差があるのに誤って差があるとはいえないと判断してしまうことになります。
このように誤って判断してしまうことを第二種の過誤またはβエラーと呼びます。
第二種の過誤(βエラー)とは、本当は差があるのに、誤って差があるとは言えないと判断してしまう間違いです。
サンプルサイズ設計の原理
人数によって変わる第二種の過誤
帰無仮説と対立仮説、有意水準と研究に参加する人数の4つが確定すれば、第二種の過誤が起こる可能性が計算できます。
ということは、研究に参加する人数と第二種の過誤が起こる可能性を入れ替えると、
帰無仮説と対立仮説、有意水準と第二種の過誤が起こる可能性の4つが確定すれば、計算上研究に参加する人数がわかることにもなるのです。
さらに、研究に参加する人数が多ければ多いほど、第二種の過誤が起こる可能性が小さくなっていくことがわかりました。
なので、第二種の過誤が起こる可能性を小さくしようとすればするほど、研究に参加してもらう人数を増やさなければならないことになります。
そこで、有意水準で第一種の過誤が起こる可能性を規定したように、
第二種の過誤が起こる可能性がある程度以下になるように、研究に参加してもらう人数を決める。
ということを考えます。これがサンプルサイズ設計の考え方です。
では、第二種の過誤が起こる可能性をどの程度まで許容するか、ということですが、これについても、有意水準を何%に定めるのかについての決まりがないように、決まりはありません。
医学領域では、よく20%以下に定めています。
また、第二種の過誤が起こる可能性の代わりに、検出力という言葉をよく用います。
検出力というのは、
検出力=100%−第二種の過誤が起こる可能性(%)
のことです。
第二種の過誤が、「本当は差があるのに、誤って差があるとは言えないと判断してしまう間違い」だったので、検出力は、
本当に差があるときに、ちゃんと差があると判断できる可能性
を示すものだと言えます。
第二種の過誤が起こる可能性を20%以下に抑える、ということは、検出力を80%以上にする、ということです。
サンプルサイズ設計の手順
では、実際にどのような手順でサンプルサイズ設計を行えばよいのでしょうか。
医学的に意味のある差と有意差は異なります。
カウンセリングを受けることによって3カ月以内に症状が改善する割合が高くなるかを調べるランダム化研究を実施することを考えます。
サンプルサイズ設計の手順@
コントロールグループの改善割合を設定する。
過去の研究結果などにもとづいて設定することになります。
ここでは、医学的に意味のある差と有意差で示した例で、コントロールグループ(カウンセリングを受けないグループ)の改善割合がともに30%だったので、30%と設定しておきます。
サンプルサイズ設計の手順A
試験治療を受けるグループの改善割合を設定する。
コントロールグループの改善割合をどのくらい上回ったりカウンセリングに意義があると言えるのか、を考えます。
ここでは、カウンセリングを受けるグループの改善割合が60%なら(コントロールグループを30%上回ったら)、このカウンセリングに意義があると考えましょう。
帰無仮説が「リスク差=0」、対立仮説が「リスク差=0.30」ということになります。
サンプルサイズ設計の手順B
有意水準を設定する。
医学領域でしばしば用いられる、両側5%としましょう。
サンプルサイズ設計の手順C
検出力を設定する。
医学領域で用いられることが多い、80%としましょう。
サンプルサイズ設計の手順D
サンプルサイズを計算する。
どうしても計算式を知りたい人は専門書を参照してください。重要なことは、
サンプルサイズを計算するためには、
コントロールグループのイベント発生割合、試験治療グループのイベント発生割合、有意水準および検出力の4つの情報が必要ということです。
実際に計算してみると、1グループあたり41.9・・・となります。
検出力を80%以上(第二種の過誤が起こる可能性を20%以下)とするためには、各グループ42人以上(合計84人以上)の人に研究に参加してもらわないといけない、ということです。
最後に、このカウンセリングで84人で有効であると確認できたとして、それよりもずっと多い人数で研究したらどうなるのか、考えてみましょう。
例えば、200人の人でこの研究を実施するとしましょう。
そうすると、200−84=116人のうちの約半分は、コントロールグループに割り付けられることになります。
この人たちは、(平均的に)有効であることがわかっているカウンセリングを受ける機会を失ってしまうのです。
この意味においても、研究に参加してもらう人数が多すぎてはいけないのです。
何人の赤ちゃんが必要?
さて、赤ちゃんが攻撃された側の立体を選ぶ傾向にあるのかどうかに関する記事ですが、
何人の赤ちゃんを集めて、(1)のグループ(図形が互いに接触せずに動くものを見たグループ)と、
(2)のグループ(片方が片方を一方的に小突いて攻撃しているように動くものを見たグループ)にランダム割り付けすればよいのか、考えてみましょう。
まず、@(1)のグループが(2)のグループで攻撃されていた側の立体と同じ立体を選ぶ割合ですが
・・・五分五分ということで50%としておきましょう。
次に、A(2)のグループが攻撃されていた側の立体を選ぶ割合ですが、これは80%としておきましょう。
それで、B有意水準を両側5%、C検出力を80%と設定すると、この研究に必要な赤ちゃんの数は、1グループあたり38.4・・・と計算されます。
つまり、「本当に赤ちゃんが攻撃されていた側の立体を選ぶ傾向にあるのか」を検証するためには、各グループ39人以上(合計78人以上)の赤ちゃんを集めてこないといけないことになります。
実際の臨床試験では、現実問題として、集めることができる最大の人数が決まっていたりします。
研究に必要なサンプルサイズを計算した結果、それが、もし実際に集められる最大の人数を超えてしまったら・・・・
このようなことは結構起こるのです。
関連記事