過誤率の選択|【統計学・統計解析講義応用】
過誤率の選択
マイクロアレイやその他の高速大量データ処理が必要な,大量に検査を行う試験で生じるもう1つの問題は,サンプルサイズの計算のための過誤率の選択である.
この計算は,多重比較の影響とその重大性についての考察を必要する.
多くの研究者は,偽発見率(false discovery rate. FDR)を制御するために0.001という有意水準と0.95かそれ以上の検出力を用いて,追跡すべき候補プールを選択する.
とりわけ大量のデータ処理が必要なデザインにおいて, Bonferroni型の修正はサンプルサイズの小さな試験ではいかなる統計的に有意な項目も見出すことを不可能にする.
偽陽性率(FDR)を制限する目的でいくつかの方法が適用されるだろうし.また頻繁に新しい方法が学術論文誌で発表されている.
技術操作上な繰り返しが検査のばらつきを低減するために有用であることを記憶にとどめておくこともまた大切であるが,生物学的に独立な繰り返し(すなわち,多くの異なる人々からの標本の採取)も重要である.
以前に示したサンプルサイズの計算方法が特別な注意を払って選択した有意水準と検出力とともに用いられるだろうが,どの標本を採取して用いるかという選択をする際において,サンプルサイズの計算が独立な標本の数を求めていることに留意しておくことが大切である.
マイクロアレイとGWAS (genome wide association studies.ゲノムワイド関連研究)を含めた統計遺伝学とfMRIは,個々の標本それぞれが大量のデータをもち,そのためしばしば独立な標本がそこにはわずかしかないことがあり得るという事実が隠されてしまうようないくつかの領域のほんの一部の分野である.
データマイニングはよく行われるが,それはまた相関関係や多重比較など,以前に述べたようなその他の多くの問題を考慮しなければならない.
また,我々は遺伝子のクラスタリングやSNPなどを調べるためにデザインされる試験のサンプルサイズの計算を行うことができる.
現在のところ,潜在的に複雑な生物学的構造を明らかにするために,大部分の方法は独立サンプルがあまりに少ないデータに対して試みられているという見解が一致していることは別にして,手法に関して厳格なルールは存在しない.
結局のところ,母集団に関して妥当な推論を行うためには,どれだけの独立なサンプルを我々は必要とするだろうか.
ぜひあなたが行おうとしている試験のデータのタイプの詳細や新しい情報,そしてガイダンスに精通しているあなたの側の統計家に相談して欲しい.
それらは計算方法の問題ではない.
実際,各々の検査標本から得た大量のデータを用いてたくさんの数字がうなりをあげてコンピュータからはき出されてくるが,これらが検討しようとしている科学的な疑問への答えであること.そしてその試験と解析が再現可能であることを我々は確保する必要がある.
関連記事