統計的考察:第一種の過誤と多重比較【統計解析講義応用】

統計的考察:第一種の過誤と多重比較【統計解析講義応用】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

統計的考察:第一種の過誤と多重比較|【統計学・統計解析講義応用】

統計的考察:第一種の過誤と多重比較【統計解析講義応用】


目次  統計的考察:第一種の過誤と多重比較【統計解析講義応用】

 

 

統計的考察:第一種の過誤と多重比較

 

臨床試験の仮説検定は,比較する2つの治療の効果は同一であるという「藁人形論法(straw-man argument)」を設定すると考えることができる.

 

統計的検定の目標は,確率論に基づいて,この「藁人形仮説(straw man hypothesis)」が許容されるか棄却されるかどうか決めることである.

 

第一種の過誤(type l error)あるいはαは,帰無仮説(null hypothesis)が正しいときに,誤って棄却してしまう確率である.

 

臨床医は,(まるでp値が確率の唯一の評価基準であるかのように)シンプルで二者択一の思考様式で訓練されてきているため,第一種の過誤は,一般的に有意水準0.05を用いる.

 

しかし,同様の質問が繰り返されるとき,すなわち試験内で複数のサブ集団が評価されるとき,「名目上の」0.05未満のp値は,実質的に増加する。

 

p値の意味を評価するとき,臨床医は有意差検定の数および試験実施者が実施した多重比較に応じたp値に基づいた重要性に留意すべきである.

 

第二種の過誤とサンプルサイズ

 

第二種の過誤(type II error)あるいはβは,真に結果に差があるときに,帰無仮説(治療効果に差がない)を誤って許容する確率である.

 

試験の検出力(1−β)は,一般的に.試験の特質に関心を向けるために使われるp値は帰無仮説を適切に棄却する確率である.

 

この確率は, (1)治療問に観察される結果の差と(2)主要評価項目の数に,大きく依存している.

 

検出力について考えるときの一般的な誤りは,患者数が検出力を決定するということであるが,検出力を決定するのはむしろ評価項目の数である.

 

主要評価項目が測定される精度は,試験の検出力に影響する.

 

高精度で測定できる評価項目は,より少ない患者で十分である.

 

この例として.セスタミビ(sestamibi)によって推定される心筋梗塞の大きさがある.

 

再灌流前のリスクがある領域と,その後の最終的な梗塞の大きさを測定して梗塞の修復を評価することにより,評価項目のばらつきを大きく減少することができる。 

 

しかし,よくあることであるが,より精度の高い測定結果を得ることがより難しく.試験を実施できる施設を見つけることが大変難しくなる.

 

多くの場合.試験を完了するのに必要な時間は,必要な患者数と同様に重要となる,

 

行動療法または精神医学の試験では,質問票を開発して使用する際に,同様の議論が,一般的に用いられる詳細な品質管理における主要なきっかけの1つとなる.

 

生理学的な評価項目を用いる試験では.一般的に,連続値を用いることで差についての検出力を上昇させる.

 

再狭窄試験では,径狭窄(diameter stenosis)の50%未満の減少を検出ために必要な患者数は,径狭窄の平均値または中央値,あるいは最小内腔径の差を検出するために必要な患者数より大きくなる.

 

1978年のNew England Journal of Medicineのレビューによると,71の失敗した試験のうち67試験で大きな第二種の過誤があり(25%の治療効果を逃す10%超える可能性). 71試験のうち50試験は50%の治療効果を見落とす10%を超える可能性があった.

 

残念ながら.それ以来状況はあまり改善していない.

 

十分な検出力がなく試験が失敗に終わることの最も一般的な理由は.プロジェクトに対する不十分な投資と一部の研究者の熱意がないことである.

 

臨床試験を実施する際には,少なくとも80%の検出力(90%の検出力がより好ましいが)を保持していることが極めて理想的である.

 

真の差を検出する確率がほとんどない試験により,期待できるアイデアや治療を捨ててしまうことは,明らかに残念な状況である.

 

 

理解することが最も難しい概念の1つに,真の差についての検出力が小さい試験では,より良い治療における有意な差を示す確率が制限されてしまうだけでなく,症例数が少ないことによるばらつきにより観察される治療効果の方向が十分に予測できないことがあげられる.

 

もし小規模の試験で.観察される効果が誤った方向になる場合,その治療は期待できないが,一方で.もし観察された効果が期待できる方向にあるけれど,p値は有意ではない場合,有意でない理由は,サンプルサイズが不十分であることである.

 

十分な規模の臨床試験をデザインして実施することにより,これらの問題を避けることができる.

 

観察的な比較は,少なすぎる患者を組み入れるランダム化試験と同じくらい起こり得る.

 

しかしながら,観察試験はめったに検出力計算を含まない.

 

ランダム化試験において一般的に使われているものと同形式の計算が. 0.05より大きいp直として観察された効果をみるために使うことができる.

 

最小限の臨床的に重要な差を議論し,もし差が存在するのであれば,その差を見つける確率の評価を読者に提供することにより、観察研究の実施者は,その研究をより鋭い視点でとらえることができる.

 

 

統計的考察:第一種の過誤と多重比較【統計解析講義応用】


セミナー詳細                    解析ご相談                    LINEでお友達

統計的考察:第一種の過誤と多重比較【統計解析講義応用】

統計的考察:第一種の過誤と多重比較【統計解析講義応用】