組織,場所と時間における関連性|【統計学・統計解析講義応用】
組織,場所と時間における関連性
組織,場所や時間に関するデータの間には.様々な種類の構造と関連性が存在するかもしれないことを認識しておくことは重要である.
ある試験における被験者の間には,階層的な関係があるかもしれない.
例えば,就学年齢にある子どもの健康に関する地域社会全体にわたる観察研究で,我々は子どもたちをクラス,学校,学区などで入れ子にした構造におくかもしれない.
同様に.地理的なあるいは空間的な要素を取り入れた試験では,位置的に互いに近い測定はより似通ったものになるかもしれず,そして大都市により近いそれらは.より地方にある場所より異なる特徴を持つ傾向があるかもしれない.
さらにまた,個々の被験者で繰り返し測定を行う縦断的研究で,ともにより近い時間間隔で測定される値は,より遠い時点との測定値よりも高い関連性を互いに持つかもしれない.
臨床試験の統計的デザインとデータの解析において,これらは考慮されなければならないものであり,この様々な構造や関連性について認識することは重要な点である.
大抵の場合.こういった構造は,データ中の関連した測定値間の相関関係を説明し得る統計モデル,あるいは解析手法を選択することで捕らえることが可能である.
相関関係を適切に把握しないことは.ほとんどの場合で標準誤差やp値の誤った推定のような正しくない推論を導くことになる.
対になったデータでは,相関への配慮は対応のあるt検定やWilcoxonの符号順位検定といった対応のある検定を行うことで単純化することができる.
縦断的データについては,一般化推定方程式(generalized estimating equations. GEE)や混合モデル解析などの,より一般的な繰り返し測定データのための有用な手法が多様に存在する.
妥当な解析と正しい推論を行えるように,そのデータ構造を適切に捕らえるためには,統計学者とともに研究を行うことが大切であることを意味していない.
データに固有の構造が,観測値の多くを互いに相関もしくは関連しているという状態にするかもしれない.
さらには多重比較の問題はあふれ,大規模データセット中のパターンと有用な情報を探索するためにデータマイニングは日常的に行われ,そしてその他多くの問題は,解析だけでなくまた,試験に必要な妥当なサンプルサイズの計算においても発生する.
単純な仮説検定法は,独立な標本と測定値に対する適用を前提にしたものである.
我々が見てきた唯一の例外は対応のあるX検定だが,そこでは被験者の各対の独立な差について調べた.
縦断的研究におけるように.同じ被験者の中で経時的な測定を繰り返して行うとしたら,それらの測定値は独立ではなく,そして実際に時間間隔で近い測定値は離れた時点の測定よりも似通った値となるだろう.
また我々は,1人の被験者について1つの標本(例えば,生体組織検査)を採取するが,それを用いて多数の結果を報告する場合があるかもしれない.
そのようなことはマイクロアレイやfMRIの試験では普通に行われる.
マイクロアレイを使う場合,我々がそれぞれのプローブセットに見る遺伝子発現は,プローブが同じ遺伝子かあるいは互いに関連する遺伝子について用意されていることにより,他のプローブセットに見られる遺伝子発現と関連している可能性がある.
実際,多くのマイクロアレイチップが同時に10,000個を超える遺伝子をルーチン的に検査し,また1つのチップ上の同じ遺伝子に対し重複して検定が行われるため,相関関係構造と多重比較の重大性を過小に評価することはない.
相関は時折マイクロアレイデータの解析において議論されるが,それはfMRIデータの解析で注目される話題である.
fMRI画像上に定義された登録領域であるボクセルは,相関構造を有している.
現在のところ,ある解析手法はそれを無視しており,ある手法は脳の部位が異なっても変わらない単純な一様構造を課し,また別の手法ではボクセルの相関構造を完全にモデル化しようと試みている.
後者の手法はおそらく最も正確な方法ではあるが,それらはまたこの原稿を書いている時点では一般には見られることのないほどの計算能力と非現実的な大きさのサンプルサイズを要求する.
関連記事