サンプルサイズで決まる研究の信頼性と成果【ChatGPT統計解析】
研究では、サンプルサイズの設定が重要です。例えば、赤ちゃんが攻撃された側の立体を選ぶ傾向を検証する場合、40人のデータでは「有意差なし」となる結果が出ても、これはサンプル数の少なさが原因かもしれません。人数が多いと無意味な差でも有意差ありとなる一方、人数が少ないと意味のある差が有意差なしになることがあります。そのため、事前に適切なサンプルサイズを計算することが重要です。計算には、コントロールグループと試験グループのイベント発生割合、有意水準、検出力などの設定が必要です。例えば、改善率30%のコントロール群に対し60%の改善率を期待する場合、各グループ42人以上(計84人)の参加が必要とされます。また、過剰な参加者数は非倫理的となる可能性があるため注意が必要です。この原理を用いると、赤ちゃんの実験ではグループごとに39人、合計78人以上の参加が求められます。サンプル数は結果の解釈や研究の信頼性を左右するため、適切な計算と計画が不可欠です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
研究に必要なサンプルサイズ
まずは次の新聞記事を読んでみてください。
〇〇大の研究グループは、1歳未満の赤ちゃんが、苦境に立つ弱者に対して同情の念を抱き、それを態度で示すことを実験で明らかにしたと発表した。
従来、生後18か月の幼児が痛みを訴える大人に同情を示したとの研究結果があるが、人間には生まれながらにして思いやりの気持ちがある可能性を示す成果という。
実験は、他者を認識して行動し始めるとされる生後10カ月の赤ちゃん40人を対象とした。
四角(黄色)と丸(青色)が画面を動き回る動画を用意、赤ちゃんを2つのグループに分け、それぞれに(1)図形が互いに接触せずに動く、(2)片方が片方を一方的に小突いて攻撃しているように動く、ものを見せた。
(2)のグループは、四角が丸を攻撃するパターンと、丸が四角を攻撃するパターンに分けた。
その後、赤ちゃんの前に、立方体(黄色)と球体(青色)のスポンジ状の立体2つを並べてどちらに手を伸ばすかを調べた。
(1)のグループの赤ちゃんは、選んだ立体にほとんど差はなかった。一方、(2)のグループは8割の赤ちゃんが、自分が見た動画で攻撃されていた側の立体を選んだ。
この研究はランダム化研究です。
もし仮に、赤ちゃん40人が(1)と(2)それぞれのグループに20人ずつ割り付けられたとすると、(2)のグループで攻撃されていた側の立体を選んだ割合は16/20=80%です。
(1)のグループでは「ほとんど差はなかった」と書かれているので、差が縮まる方向に傾いたとして、11/20=55%と想定してみましょう。
これを計算してみると、リスク差は16/20-11/20=0.25(95%信頼区間:-0.03-0.53)、両側p値は8.0%で、有意差なしです。
医学的にはまったく何の意味もないような差であっても、人数が多いだけで有意差ありとなってしまうことがあれば、医学的にはとても意味があるような差であっても、人数が少ないだけで、有意差なしとなってしまうこともある、と述べました。
この研究では人数が少なかっただけなのかもしれません。
では、本当に赤ちゃんが攻撃されていた側の立体を選ぶ傾向にあるのか、を検証するためには、何人の赤ちゃんを集めてランダム化研究を実施すればよいのでしょうか?
まず、仮想的なランダム化研究の例を挙げて、医学的にはまったく何の意味もないような差であっても、人数が多いだけで有意差ありとなってしまう状況と、医学的には意味があるような差であっても、人数が少ないだけで有意差なしとなってしまう状況をみてみましょう。
差はなくても有意差あり
サザエさん症候群(日曜日の夕方サザエさんを見た後、翌日からまた通学・通勤をしなければならないという現実に直面して憂鬱になり、体調不良や倦怠感を訴える症状)に対して、カウンセリングを受けるか受けないかによって3カ月以内に症状が改善するかどうかを調べるランダム化臨床研究を行ったとします。
そうしたら、2000人の人が参加してくれて、次のような結果が得られました。
カウンセリングを受け、症状が改善した:350人
カウンセリングを受け、症状が改善しなかった:650人
カウンセリングを受けず、症状が改善した:300人
カウンセリングを受けず、症状が改善しなかった:700人
リスク差を計算すると、350/1000−300/1000=0.05 です。
このカウンセリングにはあまり意義がないように思いますね。
しかし、統計的仮説検定をしてみると、両側p値=1.7%で「有意差あり」となります。
95%信頼区間は0.01-0.09でした。
このように、医学的には意味がないような差であっても、人数が多いだけで有意差ありとなってしまうことがあるのです。
今度は、同じくサザエさん症候群について、別のカウンセリングを受けるか受けないかによって3カ月以内に症状が改善するかどうかを調べるランダム化臨床研究を行ったとします。
そうしたら、20人の人が参加してくれて、次のような結果が得られました。
カウンセリングを受け、症状が改善した:6人
カウンセリングを受け、症状が改善しなかった:4人
カウンセリングを受けず、症状が改善した:3人
カウンセリングを受けず、症状が改善しなかった:7人
リスク差を計算すると、6/10-3/10=0.30です。
このカウンセリングには意義がある可能性を感じますね。
しかし、統計的仮説検定をしてみると、
両側p値=15.7%で「有意差なし」となります。
95%信頼区間は-0.12-0.72 でした。
このように、医学的には意味があるような差であっても、人数が少ないだけで「有意差なし」となってしまうことがあるのです。
問題は「研究に参加する人数」
これまでみてきたように、ただ漫然と人を集めてきて、ただ漫然と統計的仮説検定をするだけでは、「有意差」が「医学的に意味のある差」について何も言及していないことになってしまいます。
統計的仮説検定をすることにあまり意義がなくなってしまうのです。
問題は、研究に参加してくれる人数です。
医学的に意味のある差があるか否かにかかわらず、人数が多いだけで有意差あり、人数が少ないだけで有意差なし、となってしまっているわけです。
だったら、ただ漫然と人を集めてくるのではなくて、事前に、
医学的に意味のある差があるときに有意差あり
医学的に意味のある差がないときに有意差なし
となるように、研究に参加してもらう人数を決めると、あらかじめ計算しておけばよいわけです。
こうしてから研究を実施すれば、有意差が医学的に意味のある差に合致することになります。
このように、人数の多い少ないによって起こり得る問題を起こさないように、事前に計算して研究に参加してもらう人数を決めることをサンプルサイズ設計とか症例数設計と言うことがあります。
人数が多いと、医学的な差<統計的な差
ちょうどいいところは、医学的な差=統計的な差
人数が少ないと、医学的な差>統計的な差
第一種の過誤
さて、では、どのようにサンプルサイズ設計を行うか、ということですが、
その前に、ランダム化臨床研究の例で、帰無仮説と有意水準をみていきましょう。
薬を飲むグループで風邪が治った人:70人
薬を飲グループで風邪が治らなかった人:30人
薬を飲まなかったグループで風邪が治った人:60人
薬を飲まなかったグループで風邪が治らなかった人:40人
帰無仮説(リスク差=0)が正しいと仮定したときに、たまたまの偶然の影響によってリスク差が0にならないことがあります。
両側p値=5%に相当する部分です。
つまり、データから計算されたリスク差が、この5%に相当する横軸の値を超えたら、有意差ありということになります。
この可能性の低いことが本当に起こってしまったら、本当は差がないのに誤って差があると判断してしまうことになります。
このように誤って判断してしまうことを第一種の過誤とかαエラーとか言ったりします。
第一種の過誤(αエラー)
本当は差がないのに、誤って差があると判断してしまう間違い
有意水準を両側5%と定めることによって、第一種の過誤が起こる可能性を5%に抑えている、ともいえるわけです。
第二種の過誤(βエラー)
比較するグループのリスクに違いがない、という帰無仮説に対して、今度は、比較するグループのリスクに違いがある、という仮説を考えてみましょう。
このような仮説は、帰無仮説に対して対立仮説と呼びます。
帰無仮説と対立仮説は2つで1セットです。
帰無仮説が間違っていると判断するときには、同時に、対立仮説が間違っているとは言えないと判断することになります。
逆に、帰無仮説が間違っているとは言えないと判断するときには、同時に、対立仮説が間違っていると判断することになります。
本当は差があるのに誤って差があるとはいえないと判断してしまうことになります。
このように誤って判断してしまうことを第二種の過誤またはβエラーと呼びます。
第二種の過誤(βエラー)とは、本当は差があるのに、誤って差があるとは言えないと判断してしまう間違いです。
サンプルサイズ設計の原理
人数によって変わる第二種の過誤
帰無仮説と対立仮説、有意水準と研究に参加する人数の4つが確定すれば、第二種の過誤が起こる可能性が計算できます。
ということは、研究に参加する人数と第二種の過誤が起こる可能性を入れ替えると、
帰無仮説と対立仮説、有意水準と第二種の過誤が起こる可能性の4つが確定すれば、計算上研究に参加する人数がわかることにもなるのです。
さらに、研究に参加する人数が多ければ多いほど、第二種の過誤が起こる可能性が小さくなっていくことがわかりました。
なので、第二種の過誤が起こる可能性を小さくしようとすればするほど、研究に参加してもらう人数を増やさなければならないことになります。
そこで、有意水準で第一種の過誤が起こる可能性を規定したように、
第二種の過誤が起こる可能性がある程度以下になるように、研究に参加してもらう人数を決める。
ということを考えます。これがサンプルサイズ設計の考え方です。
では、第二種の過誤が起こる可能性をどの程度まで許容するか、ということですが、これについても、有意水準を何%に定めるのかについての決まりがないように、決まりはありません。
医学領域では、よく20%以下に定めています。
また、第二種の過誤が起こる可能性の代わりに、検出力という言葉をよく用います。
検出力というのは、
検出力=100%−第二種の過誤が起こる可能性(%)
のことです。
第二種の過誤が、「本当は差があるのに、誤って差があるとは言えないと判断してしまう間違い」だったので、検出力は、
本当に差があるときに、ちゃんと差があると判断できる可能性
を示すものだと言えます。
第二種の過誤が起こる可能性を20%以下に抑える、ということは、検出力を80%以上にする、ということです。
サンプルサイズ設計の手順
では、実際にどのような手順でサンプルサイズ設計を行えばよいのでしょうか。
医学的に意味のある差と有意差は異なります。
カウンセリングを受けることによって3カ月以内に症状が改善する割合が高くなるかを調べるランダム化研究を実施することを考えます。
サンプルサイズ設計の手順@
コントロールグループの改善割合を設定する。
過去の研究結果などにもとづいて設定することになります。
ここでは、医学的に意味のある差と有意差で示した例で、コントロールグループ(カウンセリングを受けないグループ)の改善割合がともに30%だったので、30%と設定しておきます。
サンプルサイズ設計の手順A
試験治療を受けるグループの改善割合を設定する。
コントロールグループの改善割合をどのくらい上回ったりカウンセリングに意義があると言えるのか、を考えます。
ここでは、カウンセリングを受けるグループの改善割合が60%なら(コントロールグループを30%上回ったら)、このカウンセリングに意義があると考えましょう。
帰無仮説が「リスク差=0」、対立仮説が「リスク差=0.30」ということになります。
サンプルサイズ設計の手順B
有意水準を設定する。
医学領域でしばしば用いられる、両側5%としましょう。
サンプルサイズ設計の手順C
検出力を設定する。
医学領域で用いられることが多い、80%としましょう。
サンプルサイズ設計の手順D
サンプルサイズを計算する。
どうしても計算式を知りたい人は専門書を参照してください。重要なことは、
サンプルサイズを計算するためには、
コントロールグループのイベント発生割合、試験治療グループのイベント発生割合、有意水準および検出力の4つの情報が必要ということです。
実際に計算してみると、1グループあたり41.9・・・となります。
検出力を80%以上(第二種の過誤が起こる可能性を20%以下)とするためには、各グループ42人以上(合計84人以上)の人に研究に参加してもらわないといけない、ということです。
最後に、このカウンセリングで84人で有効であると確認できたとして、それよりもずっと多い人数で研究したらどうなるのか、考えてみましょう。
例えば、200人の人でこの研究を実施するとしましょう。
そうすると、200−84=116人のうちの約半分は、コントロールグループに割り付けられることになります。
この人たちは、(平均的に)有効であることがわかっているカウンセリングを受ける機会を失ってしまうのです。
この意味においても、研究に参加してもらう人数が多すぎてはいけないのです。
何人の赤ちゃんが必要?
さて、赤ちゃんが攻撃された側の立体を選ぶ傾向にあるのかどうかに関する記事ですが、
何人の赤ちゃんを集めて、(1)のグループ(図形が互いに接触せずに動くものを見たグループ)と、
(2)のグループ(片方が片方を一方的に小突いて攻撃しているように動くものを見たグループ)にランダム割り付けすればよいのか、考えてみましょう。
まず、@(1)のグループが(2)のグループで攻撃されていた側の立体と同じ立体を選ぶ割合ですが
・・・五分五分ということで50%としておきましょう。
次に、A(2)のグループが攻撃されていた側の立体を選ぶ割合ですが、これは80%としておきましょう。
それで、B有意水準を両側5%、C検出力を80%と設定すると、この研究に必要な赤ちゃんの数は、1グループあたり38.4・・・と計算されます。
つまり、「本当に赤ちゃんが攻撃されていた側の立体を選ぶ傾向にあるのか」を検証するためには、各グループ39人以上(合計78人以上)の赤ちゃんを集めてこないといけないことになります。
実際の臨床試験では、現実問題として、集めることができる最大の人数が決まっていたりします。
研究に必要なサンプルサイズを計算した結果、それが、もし実際に集められる最大の人数を超えてしまったら・・・・
このようなことは結構起こるのです。
サンプルサイズの設定は、研究の信頼性を担保するために非常に重要な要素です。例えば、赤ちゃんが攻撃された側の立体を選ぶ傾向を検証する研究では、40人のデータを用いた場合、「有意差なし」という結果が出たとしても、それがサンプル数の不足によるものである可能性があります。この問題は、サンプルサイズが少ない研究全般に当てはまる現象です。具体的には、統計的仮説検定において、サンプルサイズが大きい場合には、たとえ医学的に意味のないわずかな差であっても「有意差あり」と判定される一方で、サンプルサイズが小さい場合には、医学的に意味のある差であっても「有意差なし」と判定されることがあります。この現象を防ぐためには、研究の目的に応じた適切なサンプルサイズを事前に設定し、計画的に研究を進める必要があります。そのために、統計的仮説検定の基本的な考え方を理解し、必要な人数を正確に算出する手法を用いることが求められます。サンプルサイズを設定する際には、コントロールグループと試験グループのイベント発生割合、有意水準、検出力の4つの情報が必要です。これらの情報を基に計算を行うことで、第一種の過誤と第二種の過誤を最小限に抑えつつ、研究の信頼性を確保できます。第一種の過誤(αエラー)は、本来差がないにもかかわらず誤って差があると判断してしまう間違いであり、有意水準を両側5%に設定することで、その可能性を5%以内に抑えることが一般的です。一方、第二種の過誤(βエラー)は、本来差があるにもかかわらず誤って差がないと判断してしまう間違いであり、この可能性を抑えるためには、検出力を高める必要があります。検出力とは、「本当に差があるときに、正しく差があると判断できる可能性」を示す指標であり、通常80%以上に設定されることが多いです。例えば、カウンセリングがサザエさん症候群の改善に効果があるかどうかを検証する研究を例にとると、改善率30%のコントロールグループに対し、60%の改善率を期待する試験グループで検出力80%を目指す場合、各グループに42人以上、合計84人以上の参加が必要とされます。このように、サンプルサイズの設定は単に人数を決定するだけでなく、研究全体の設計に深く関わる重要な要素です。また、サンプルサイズが大きすぎる場合、倫理的な問題が生じる可能性があります。例えば、必要以上に多くの参加者を集めることで、対照群に割り付けられた参加者が有効性が確認されている治療を受けられないという非倫理的な状況を招くことがあります。このような観点からも、適切なサンプルサイズの計算が求められるのです。赤ちゃんが攻撃された側の立体を選ぶ傾向に関する研究においては、図形が互いに接触せずに動く映像を見たグループ(グループ1)と、一方が他方を攻撃する映像を見たグループ(グループ2)の結果を比較する必要があります。仮にグループ1が攻撃された側の立体を選ぶ割合を50%、グループ2が80%と設定し、有意水準5%、検出力80%を目指す場合、各グループ39人以上、合計78人以上の赤ちゃんが必要とされることが計算から明らかになります。このように、サンプルサイズを適切に設定することで、有意差が医学的に意味のある差に対応しやすくなり、研究の信頼性と有用性が向上します。しかし、実際の臨床試験では、計画されたサンプルサイズを確保することが難しい場合もあります。例えば、研究に必要な人数が現実的に集められる最大人数を超えてしまうケースもあります。このような場合、研究の規模やデザインを再検討する必要が生じることがあります。それでも、サンプルサイズの設定が適切であれば、限られたリソースの中で最も効果的な研究が可能となります。最後に、サンプルサイズ設計の具体的な手順についてまとめると、@コントロールグループのイベント発生割合を設定し、A試験グループの期待される改善割合を設定し、B有意水準を設定し、C検出力を設定した上で、Dサンプルサイズを計算するという流れになります。これらの手順を丁寧に行うことで、研究に必要なサンプル数を正確に見積もり、適切な研究計画を立案することが可能になります。こうしたプロセスを経ることで、研究の結果が統計的な有意差だけでなく、実際の臨床的意義を持つ結果であることを保証することができます。以上のように、サンプルサイズの設定は、研究の計画段階において最も重要な作業のひとつであり、これを適切に行うことが、研究の成功と信頼性を大きく左右します。
関連記事