交絡した交絡【統計解析講義応用】

交絡した交絡【統計解析講義応用】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

交絡した交絡|【統計学・統計解析講義応用】

交絡した交絡【統計解析講義応用】


目次  交絡した交絡【統計解析講義応用】

 

 

交絡した交絡

 

データを二分した後も統計的有意性を得るために十分なデータがある場合,二分することは問題になるのかと考えることがあるかもしれない。

 

失われた検定力を追加のデータで埋め合わせることができさえすれば,統計分析を簡単にするために二分してもかまわないのではないだろうか。

 

これはもっともな議論だ。

 

だが,データを二分しないで分析することはそんなに難しくない。

 

回帰分析はよく使われている手法で,ほとんどすべての統計ソフトでサポートされているし,多くの書籍でも扱われている。

 

回帰は二分法を必要としない。

 

回帰は完全なデータを用いるので,分割点を選ぶこともないし,検定力が失われることもない。

 

わざわざ水で薄めることはないのだ。

 

だが,これよりもっと大事なこととして,二分法には検定力を失う以上の問題があるということが挙げられる。

 

直感に反することだが,二分法は偽陽性をも生み出すのだ。

 

交絡因子を統制することに関心を持つことがしばしばある。

 

この場合,結果変数とともに,2個か3個の変数(あるいは2ダースか3ダースの変数)を測定して,他の変数を統制した後に,各変数が結果に与える独自の効果をはっきりさせようとするだろう。

 

2つの変数と1つの結果があるのならば,こうしたことは簡単にできる。

 

ここの2つの変数をそれぞれ二分した上で,二変量分散分析表を使うのだ。

 

分散分析(analysis of variance; ANOVA)は,単純で広く使われていて,主要な統計ソフトならばどれもがサポートしている手法だ。

 

残念なことに,起こりうる最悪なことは偽陰性ではない。

 

二分して情報を捨て去ることで,交絡因子を区別できなくなるのだ。

 

例を1つ考えてみよう。

 

例えば,個人が受ける健康管理の質に,さまざまな変数が与える影響を測定するとしよう。

 

 

健康管理の質

 

これは,調査を通じて測定されるかもしれないーが結果変数だ。

 

予測変数として,被験者個人の純資産をドルで表したものと,被験者が個人で所有するヨットの長さという2つのものを測定する。

 

ここで予想されるのは,良質な統計的手続きを使えば,富は健康管理の質に影響を与えるものの,ヨットの大きさは影響を与えないという結論が導き出せるということだろう。

 

たとえヨットの大きさが富とともに増える傾向にあるとはいえ,ヨットのおかげでより良い健康管理が得られるわけではない。

 

十分な数のデータがあれば,同量の富を持つ人は,ヨットの大きさはさまざまだが,(あるいはヨットをまったく持っていないこともあるが,)得ている健康管理の質は同程度だということに気づくだろう。

 

このことは,富が主要な要因であって,ヨットの長さがそうでないことを示している。

 

しかし,変数を二分することで,実質的にデータを4つに分けることになる。

 

各予測変数は「中央値以上」か「中央値以下」にしかなりえず,それ以上の情報は記録されなくなる。

 

こうなると,ヨットの長さが健康管理に対して何も寄与していないことに気づくのに必要なデータがまったく存在しないことになる。

 

その結果,分散分析の手続きにより,ヨットと健康管理の間に関係があると誤って主張することになる。

 

さらに問題なのは,この偽相関が統計的に有意になる確率が5%でないということだ。

 

分散分析の観点からすると,これは真の相関で,この検定の検定力が認めるかぎり検出されてしまうものなのだ。

 

もちろん,ヨットの大きさが関係ないことは,たとえデータがなくても分かっただろう。

 

ヨットの大きさを分析に含めないようにして,多くのやっかいごとから逃れることもできただろう。

 

だが,普通は,どの変数が最も重要なのかはあらかじめ分かるものではない。

 

その答えを教えてくれる統計分析に頼らざるをえないのだ。

 

回帰の手法を使えば,二分法をまったく用いずに,このデータを簡単に当てはめることができる。

 

しかも,想定した率でしか偽陽性となる相関を引き起こさない(もちろん,富とヨットの大きさとの間の相関が強ければ強いほど,これら2つの効果を区別するのは難しくなる)。

 

複数の変数を含む回帰の数理的理論は,かなりの量の線形代数が関わるため,多くの現役の科学者が理解したいところよりも高度になるかもしれない。

 

だが,回帰の基本概念と結果を理解し,解釈することは簡単だ。

 

これを使わない理由はない。

 

適切な理由がないかぎり,連続的変数を恣意的に離散的なグループに分けてはならない。

 

連続的変数の強みを完全に活かせる統計手法を用いよう。

 

連続的変数を何らかの理由でグループに分ける必要がある場合は,統計的有意性が最大となるようなグループを選んではならない。

 

分割方法をあらかじめ定義し,類似した先行研究と同様の分割方法を用いるか,外部基準(例えば肥満や高血圧の医学的定義など)をかわりに用いるようにしよう。

 

 

交絡した交絡【統計解析講義応用】


セミナー詳細                    解析ご相談                    LINEでお友達

交絡した交絡【統計解析講義応用】

交絡した交絡【統計解析講義応用】