データ解析における特記事項|【統計学・統計解析講義応用】
データ解析における特記事項
データ解析では,多くの様々な問題が生じる.
初めに小規模試験に共通な問題である,イベントの発生がなかった場合にイベント率の信頼区間をどのようにして構築するかについて述べる.
その後データの依存関係について,初めに相関と繰り返し測定データ,次にマイクロアレイ, fMRI (functional MRI,機能的磁気共鳴画像法)やその他のデータが独立ということが稀な大規模データセットに関する話題に議論を移し,単純な統計解析が誤った推測を導いてしまうことについて検討する.
また仮説検定と多重性に関する問題についても議論する.
イベント発生がない場合の信頼区間推定
上側の信頼限界の推定に関連した簡便的な方法が,二値変数を観測する試験で特に有用である.
「三数法(rule of three)」は,イベントの発生がない時の二項確率の95%信頼上限がおよそ3/pで近似できることを与える.
改良された「三数法」ではその計算式は3/(≫+l)であり,一様に良い近似である.
例えば,齧歯動物を使った25回の実験で致死的な結果がなかったならば,真の死亡率の95%信頼上限は,古い方の法則を用いるとおよそ3/25または12%に等しい.
可能な最も低い率が観測されているので,信頼下限は明らかに0である.
改良された三数法では,信頼上限は3/26または11.5%であり.おそらくより良い近似を与えている.
正確な計算によれば信頼上限はこの場合11.3%であり,2つの簡便な近似方法による結果よりわずかに低い値である.
データの依存関係:相関
相関係数は,各々の被験者毎に1つの独立な観測の対がある場合の,対になっている変数の間のー致性を測る尺度である.
Pearsonの標本相関係数rは,完全に負または正の線型な関係をそれぞれ表す−1と1の間の値をとる.
r=0という値は線型な関係が全くないが,その他の非線形的な関係があるかもしれないことを示す.
多くの場合で.相関がゼロではないという事実よりも1つの変数の変化が他の変数の例えば1単位毎の変化によって誘導されるその大きさの方が重要であるが,ゼロ相関であるという仮説のp値は計算することができる.
加えて,それぞれの変数の生のデータを各データの順位に置きかえれば, Spearmanの相関係数を得る.
Spearmanの相関係数は,データを変換してもそれが対数をとるような順位を維持するものであれば,値が変わらないノンパラメトリックな統計量である.
関連記事