データ二分の落とし穴と偽陽性回避法【ChatGPT統計解析】
データを二分することについて、統計的有意性を保つために十分なデータがある場合に二分しても問題がないのかと考えることがある。しかし、二分は検定力を失うだけでなく、偽陽性を生み出すリスクがある。回帰分析はデータを分割せずに全体を用いるため検定力の損失がなく、主要な統計ソフトでサポートされている手法である。変数を二分すると情報を失い、例えば健康管理の質を測定する際、富が影響を与えるがヨットの大きさは影響しないと結論づけることが困難になる。誤った相関が統計的に有意となる場合もあるが、回帰を用いることで偽陽性の発生率が低くなる。変数を分ける際は統計的有意性を最大にするような分割は避け、適切な方法を用いるべきであり、連続的変数を無意味に分けず、その強みを活かした統計手法を用いることが望ましい。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
交絡した交絡
データを二分した後も統計的有意性を得るために十分なデータがある場合,二分することは問題になるのかと考えることがあるかもしれない。
失われた検定力を追加のデータで埋め合わせることができさえすれば,統計分析を簡単にするために二分してもかまわないのではないだろうか。
これはもっともな議論だ。
だが,データを二分しないで分析することはそんなに難しくない。
回帰分析はよく使われている手法で,ほとんどすべての統計ソフトでサポートされているし,多くの書籍でも扱われている。
回帰は二分法を必要としない。
回帰は完全なデータを用いるので,分割点を選ぶこともないし,検定力が失われることもない。
わざわざ水で薄めることはないのだ。
だが,これよりもっと大事なこととして,二分法には検定力を失う以上の問題があるということが挙げられる。
直感に反することだが,二分法は偽陽性をも生み出すのだ。
交絡因子を統制することに関心を持つことがしばしばある。
この場合,結果変数とともに,2個か3個の変数(あるいは2ダースか3ダースの変数)を測定して,他の変数を統制した後に,各変数が結果に与える独自の効果をはっきりさせようとするだろう。
2つの変数と1つの結果があるのならば,こうしたことは簡単にできる。
ここの2つの変数をそれぞれ二分した上で,二変量分散分析表を使うのだ。
分散分析(analysis of variance; ANOVA)は,単純で広く使われていて,主要な統計ソフトならばどれもがサポートしている手法だ。
残念なことに,起こりうる最悪なことは偽陰性ではない。
二分して情報を捨て去ることで,交絡因子を区別できなくなるのだ。
例を1つ考えてみよう。
例えば,個人が受ける健康管理の質に,さまざまな変数が与える影響を測定するとしよう。
健康管理の質
これは,調査を通じて測定されるかもしれないーが結果変数だ。
予測変数として,被験者個人の純資産をドルで表したものと,被験者が個人で所有するヨットの長さという2つのものを測定する。
ここで予想されるのは,良質な統計的手続きを使えば,富は健康管理の質に影響を与えるものの,ヨットの大きさは影響を与えないという結論が導き出せるということだろう。
たとえヨットの大きさが富とともに増える傾向にあるとはいえ,ヨットのおかげでより良い健康管理が得られるわけではない。
十分な数のデータがあれば,同量の富を持つ人は,ヨットの大きさはさまざまだが,(あるいはヨットをまったく持っていないこともあるが,)得ている健康管理の質は同程度だということに気づくだろう。
このことは,富が主要な要因であって,ヨットの長さがそうでないことを示している。
しかし,変数を二分することで,実質的にデータを4つに分けることになる。
各予測変数は「中央値以上」か「中央値以下」にしかなりえず,それ以上の情報は記録されなくなる。
こうなると,ヨットの長さが健康管理に対して何も寄与していないことに気づくのに必要なデータがまったく存在しないことになる。
その結果,分散分析の手続きにより,ヨットと健康管理の間に関係があると誤って主張することになる。
さらに問題なのは,この偽相関が統計的に有意になる確率が5%でないということだ。
分散分析の観点からすると,これは真の相関で,この検定の検定力が認めるかぎり検出されてしまうものなのだ。
もちろん,ヨットの大きさが関係ないことは,たとえデータがなくても分かっただろう。
ヨットの大きさを分析に含めないようにして,多くのやっかいごとから逃れることもできただろう。
だが,普通は,どの変数が最も重要なのかはあらかじめ分かるものではない。
その答えを教えてくれる統計分析に頼らざるをえないのだ。
回帰の手法を使えば,二分法をまったく用いずに,このデータを簡単に当てはめることができる。
しかも,想定した率でしか偽陽性となる相関を引き起こさない(もちろん,富とヨットの大きさとの間の相関が強ければ強いほど,これら2つの効果を区別するのは難しくなる)。
複数の変数を含む回帰の数理的理論は,かなりの量の線形代数が関わるため,多くの現役の科学者が理解したいところよりも高度になるかもしれない。
だが,回帰の基本概念と結果を理解し,解釈することは簡単だ。
これを使わない理由はない。
適切な理由がないかぎり,連続的変数を恣意的に離散的なグループに分けてはならない。
連続的変数の強みを完全に活かせる統計手法を用いよう。
連続的変数を何らかの理由でグループに分ける必要がある場合は,統計的有意性が最大となるようなグループを選んではならない。
分割方法をあらかじめ定義し,類似した先行研究と同様の分割方法を用いるか,外部基準(例えば肥満や高血圧の医学的定義など)をかわりに用いるようにしよう。
データを二分することは統計的分析を簡略化する手法として時折行われるが、その影響と問題点について慎重に考える必要がある。統計的有意性を維持するために十分な量のデータが存在している場合でも、データを二分することが妥当であるかという疑問が生じるかもしれない。データの二分によって失われた検定力を追加のデータによって補うことが可能であるとすれば、統計分析を単純化するために二分することが許容されると考える人もいる。しかし、これはあまりにも単純な見解であり、現実にはデータを二分することで生じるさまざまな問題が存在する。まず、データを二分することは検定力の損失を引き起こす。検定力が失われると、得られる結果の信頼性が低下し、実際には存在する差異や効果を見逃すリスクが高まる。これは、研究において望ましくない結果をもたらし、誤った結論に導かれる可能性がある。しかしながら、二分法の問題は単なる検定力の損失にとどまらない。二分法は偽陽性をも生じさせることがあり、これが統計分析の信頼性を著しく損なう要因となる。偽陽性とは、本来は無関係な要因同士が統計的に有意な関連を持つと誤って判断される状況を指す。これにより、研究者は無関係な要素を重要と見なしてしまい、誤った解釈をする可能性がある。交絡因子を統制することは、統計分析においてしばしば必要とされる。交絡因子とは、独立変数と従属変数の間に入り込み、両者の関連性を歪める要因である。このため、研究者は結果変数とともに複数の変数を測定し、それぞれの変数が結果に及ぼす独自の効果をはっきりと示そうとする。二つの変数と一つの結果変数がある場合には、二分法を用いて二変量分散分析表を作成することができる。分散分析(ANOVA)は広く使われている手法であり、多くの統計ソフトが対応している。しかし、二分法を用いた際に起こりうる最大の問題は偽陰性ではなく、情報が失われることで交絡因子を区別できなくなることである。例えば、個人が受ける健康管理の質に複数の要因が影響を与えるケースを考える。この場合、健康管理の質は調査を通じて測定される結果変数であり、予測変数としては個人の純資産と個人が所有するヨットの長さがあると仮定する。適切な統計手続きを用いれば、富が健康管理の質に影響を与える一方、ヨットの長さは影響しないという結論が導き出されるはずである。なぜなら、ヨットの大きさが富とともに増加する傾向があるとしても、実際にはヨット自体が健康管理に直接影響を及ぼすことは考えにくいからである。もし十分な数のデータが存在すれば、同じ程度の富を持つ個人間でヨットの大きさに違いがあっても、健康管理の質に大きな違いはないことが観察されるだろう。これによって、富が主要な要因であり、ヨットの長さはそうではないという結論が得られる。しかし、予測変数を二分することで、実質的にデータが四つに分割される。各変数が「中央値以上」または「中央値以下」としてしか分類されないため、それ以上の情報が失われることになる。このような状況下では、ヨットの長さが健康管理に寄与しないことを示すデータが全く存在しなくなるため、分散分析の手法を用いて誤った結論が導かれる可能性が高まる。具体的には、ヨットの長さが健康管理の質に関連があると誤って主張される結果が生じる。さらに、この偽陽性の確率が5%でないことが問題である。統計的な視点からは、これは真の相関として検出され、検定の力の限りにおいて認識されてしまうものである。もちろん、実際にはヨットの大きさが健康管理に影響しないことは直感的にも理解できることであるかもしれない。データを分析する際にヨットの大きさを含めないことで、こうした誤った結論を避けることはできる。しかし、どの変数が分析において最も重要であるかは、事前にわかっているとは限らない。そのため、研究者は統計分析に頼って答えを見つけざるを得ない場合が多い。回帰分析を使用することで、二分法を用いずにデータを適切に分析し、偽陽性のリスクを低減させることができる。回帰分析は、二分法とは異なり、全データを活用するため情報の損失がなく、より信頼性の高い結果を得ることが可能である。回帰分析はまた、複数の変数を同時に解析する際に特に有効であり、交絡因子の影響を最小限に抑えることができる。しかし、回帰分析の数理的理論は線形代数を多用するため、理解が難しいと感じる研究者もいるかもしれない。それでも、回帰分析の基本的な概念を理解し、結果を適切に解釈することは比較的容易である。したがって、回帰分析を使用しない理由は特にない。連続的変数を分析する際には、恣意的に離散的なグループに分けるのではなく、連続的変数の特性を最大限に活かせる統計手法を選択すべきである。もし変数を分割して分析する必要がある場合は、分割方法を事前に定義し、先行研究や外部基準(例:医学的定義)に基づいて行うべきである。たとえば、肥満や高血圧の医学的な基準に従って変数を分けることで、統計的有意性が不当に強調されることを防ぐことができる。要するに、データの二分は一見便利で簡単に見える方法だが、その背後には検定力の損失や偽陽性の発生という重要な問題が潜んでいる。分析においては、変数を無理に二分することなく、連続的変数のままで取り扱う方が、情報の損失を避け、信頼性の高い結果を得るために重要である。正しい統計手法を選択することで、データの特性を活かし、誤った結論に導かれるリスクを最小限に抑えることができるのだ。
関連記事