統計分析の自由度が招く偽陽性率の危険【ChatGPT統計解析】
統計分析の自由度が結果を大きく歪めることを示す実験では、20人の学生が異なる音楽を聴き、父親の年齢を統制することでp<0.05の有意差を示す結果が得られた。研究者たちは、データ収集量を事前に決めず、途中で統計検定を繰り返して有意な結果を得る手法を採用しており、父親の年齢以外にも多くの質問を行い、結果変数を後から選定していた。こうした自由度は偽陽性率を大幅に増加させ、研究者が無意識に都合の良い結果を導くことを可能にする。また、標準誤差や信頼区間も偏り、統計的な不確実性が増す。これにより、異なる変数やサンプルサイズで分析を行えば、偽陽性率は50%以上に跳ね上がることがシミュレーションで示され、研究が正確性を欠く懸念を生じさせる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
わずかな自由は大けがのもと
シミュレーションによれば,異なった変数を調整したり,異なった事例のセットを排除したり,外れ値の扱いを変えたりするだけで,効果量に2倍の違いを生み出すことができる。
たとえ,実験室での試験結果が奇妙だった患者を再測定したり,明らかに異常な患者を取り除いたりといった合理的なやり方だったとしても,統計的に有意でない結果を有意なものにすることができる。
どうやら,やりたいように分析する自由があれば,結果を大幅にあやつることができるようなのだ。
ある研究者グループがこの現象を単純な実験で証明している。
この実験では,20人の学部生が,ビートルズの「ホエン・アイム・シックスティー・フォー」を聞くグループか,オペレーションシステムのWindows 7に付いている「カリンバ」(Kalimba)という曲を聞くグループのいずれかにランダムに割り当てられた。
その後,学生は自身の年齢と父親の年齢を聞かれた。
2つのグループを比較したところ,父親の年齢を統制すれば,「ホエン・アイム・シックスティー・フォー」を聞いた学生の方が平均して1年半若く,p<0.05となることが分かった。
割り当てはランダムになされたのだから,年齢の違いの原因としてありえるのは音楽しかない。
研究者たちは,「若いままでいるための音楽の手引き」という本を出版するのではなく,この結果を得るために使ったトリックについて説明した。
実は,データをどれだけ集めるかあらかじめ決めておかなかったのだ。
かわりに,学生を募集して,有意な結果がすでに得られているかを見るための統計的検定を定期的に実施した(このような停止規則が偽陽性率を大幅に増やす)。
また,被験者の父親の年齢で統制することについても,あらかじめ決められていたわけではなかった。
それどころか,次のようなことを聞いていたのだ。
自分の年齢がどれぐらいであると感じるか,夕食をどれだけ楽しんでいるか,100の平方根がいくつか,母親は何歳か,「コンピューターは複雑な機械だ」ということに賛成するか,早い時間だとお得になるサービスを利用するか,政治的指向はどうか,4人のカナダ大クォーターバックのうち誰が賞を取ったと考えているか,過去のことを「古き良き日」と呼ぶことがどれだけあるか,そして,性別は何かということを学生に問うたのだ。
この研究者たちは,データを見た後にはじめて,どれを結果変数として使うのか,そしてどの変数で統制するかを決めたのだ(結果が違うものだったとしたら,例えば,カナディアンフットボールに関する知識を統制すれば,「ホエン・アイム・シックスティー・フォー」を聞いた学生の方が100の平方根を計算できないと報告することになっただろう)。
当然,こうした自由は,研究者が多重比較をしたり,偽陽性率を引き上げたりすることを可能にしてしまうことになる。
この研究者たちは,公刊される論文の中で他の有意でなかった変数について報告しないで済み,老化を抑えるというビートルズの明らかな利益について自由に議論できただろう。
そうした場合,誤謬が読者の目に触れることはなかっただろう。
この研究者たちによって行われたさらなるシミュレーションによれば,例えば変数の別の組み合わせを統制したり,標本の大きさとして別のものを試したりするといった形で,うまくいくまで異なった統計分析を科学者に試させるだけで,与えられるデータセットに対する偽陽性率は50%以上跳ね上がることが示唆されている。
この事例はかなり異様なもののように感じられるし,ほとんどの科学者は有意な結果が出るまで意図的にデータをいじくりまわすようなことはしないと抗議するだろう。
ほとんどの科学者は,仮説を立てて,データを集め,データを少し探索して,仮説を検証するための合理的な統計分析をする。
「すばらしい結果が得られるまで100個の分析をすることだってできたかもしれないが,私たちはやっていない」と言うことだろう。
「データに即して適切と思われる分析を1つ選んで,それをやり通しているのだ」とも。
だが,分析戦略を選ぶときは,いつもデータを元にしている。
どの変数を含めるか,どの外れ値を取り除くか,どの統計的検定を使うか,どの結果を検討するかは,データを見て決めている。
こうしたことをしているのは,最も統計的に有意な結果を見つけるという明確な目標のためではなく,どのようなデータセットにおいても発生する特異な点を説明するような分析をもくろんでいるからなのだ。
異なったデータを集めたとしたら,例えば,急性の下痢の患者でなくて慢性の便秘の患者のデータを集めたとしたら,別の統計分析を選んでいただろう。
「意味をなす」結果を作り出すために分析を偏らせているのだ。
さらに,事前に指定された1個の科学上の仮説は,必ずしも1個の統計的仮説に対応するわけではない。
多種多様な統計的結果がみな仮説を支持するものだと解釈できる可能性もある。
ある薬が別の薬よりも副作用が少ないと考えることがあるかもしれないが,その場合,さまざまな副作用のうち,どれが統計的に有意に減ったとしてもそれを証拠として受け入れるだろう。
女性は排卵期に赤かピンクの服を着る傾向にあると考えることがあるかもしれないが,その場合,赤いシャツ,ピンクのシャツ,両者の組み合わせのどれかが統計的に有意な効果ならばそれを受け入れるだろう(あるいは,シャツ,ズボン,帽子,靴下,その他の衣類についても効果を受け入れるかもしれない)。
もし排卵期が独身の女性をよりリベラルにするという仮説を立てたのならば,投票の選択,宗教的な考え,政治的価値のどれであっても,変化があればそれを証拠として受け入れるだろう。
興味深い結果を生むような選択は,私たちの興味を誘いどのような結果にもありえそうな筋書きを作りあげるという人間の性向を惹きつけることになるだろう。
こうした統計上の自由がもたらす結末として最も憂慮すべきなのが,研究者が自分たちに最も都合の良い統計分析を意図せずに選んでしまうかもしれないということだ。
そうなれば,標準誤差や信頼区間など,不確実性の推定値としてもたらされたものが偏ってしまうだろう。
また,データが統計に関する意図を誘導してしまっているため,偽陽性率は上がってしまうだろう。
統計分析における自由度の問題は、結果の解釈や報告の信頼性に大きな影響を及ぼす。研究者がデータ分析において持つわずかな自由が、実は重大な結果を引き起こすことがある。これは一見合理的で科学的な分析プロセスであっても、意図せずに誤解を招く結果に結びつくことがあることを示している。例えば、ある研究では、20人の学生がビートルズの「ホエン・アイム・シックスティー・フォー」を聞くグループとWindows 7の「カリンバ」を聞くグループにランダムに分けられた。その後、彼らは自身の年齢や父親の年齢を問われ、統計分析の結果、父親の年齢を統制することで「ホエン・アイム・シックスティー・フォー」を聞いた学生の方が平均して1年半若く、p<0.05の統計的有意差が示された。この結果からは、割り当てがランダムであったために音楽が唯一の原因であるかのように見えるが、実際にはこの結論は研究者が選択した分析戦略によって導かれたものだった。この実験の背後には、データを事前に収集する量を決めずに統計検定を繰り返し行い、有意な結果が得られるまで学生を募集し続けるという手法が用いられていた。こうした停止規則は偽陽性率を大幅に増加させることが知られている。さらに、被験者の父親の年齢で統制することも事前に決められたものではなく、研究者がデータを見た後にどの変数を結果変数として使うかを決定した事実がある。加えて、学生たちには自分の感じる年齢、夕食の楽しみ方、100の平方根、母親の年齢、「コンピューターは複雑な機械だ」という命題への賛否、早い時間にお得になるサービスの利用頻度、政治的な指向、カナダの大クォーターバックに関する知識、過去を「古き良き日」と呼ぶ頻度、性別などを尋ねられた。これらのデータを見た後で、どれを結果変数とし、どの変数で統制するかを研究者は決定した。たとえば、異なる統制変数を選んでいたら、カナディアンフットボールに関する知識を統制し、「ホエン・アイム・シックスティー・フォー」を聞いた学生が100の平方根を計算できないという結論を導き出すことも可能だっただろう。このような自由な分析の選択肢が存在すると、研究者は無意識のうちに自分たちに有利な統計分析を選ぶことができてしまう。これにより、多重比較によって偽陽性率が高まり、結果の信頼性が大きく揺らぐことになる。この実験はかなり極端な例のように見えるかもしれないが、実際の研究環境においても多くの科学者がデータ分析の際に多少の自由度を持っていることは珍しいことではない。ほとんどの科学者は、仮説を立て、データを集め、データを探索し、その後合理的な統計分析を行うが、その過程で複数の分析方法を試みて最も良い結果を選ぶことがある。「すばらしい結果が得られるまで100個の分析をすることだってできたかもしれないが、私たちはやっていない」という主張は正直な意図から来ているだろうが、問題は、研究者がどの分析戦略を採用するかを決めるときに、無意識にデータを元にして選択しているという点にある。どの変数を含めるか、どの外れ値を取り除くか、どの統計的検定を使うか、どの結果を検討するかという選択肢は、すべてデータを見てから決定されることが多い。こうした選択は、統計的に有意な結果を意図的に探そうとしているわけではなく、どんなデータセットにおいても生じる特異な点を説明しようとしているためである。しかしながら、このような分析の選択は、最も興味深い結果を引き出すことを可能にし、それが誤解を生む可能性がある。もし急性の下痢の患者のデータを収集していれば、それに基づく分析が行われ、慢性の便秘の患者であれば、また異なる分析が選ばれただろう。このように、「意味をなす」結果を生むために、分析が偏りを持つことになる。また、事前に仮説を一つ立てたとしても、その仮説に関連する複数の統計的結果が仮説を支持していると解釈できることがある。例えば、ある薬が別の薬よりも副作用が少ないと考えた場合、さまざまな副作用のうち、統計的に有意な減少が見られれば、それを証拠として受け入れるだろう。さらに、女性が排卵期に赤やピンクの服を着る傾向にあると仮定した場合、赤いシャツ、ピンクのシャツ、あるいはその組み合わせが有意な結果を示せば、それを受け入れるだろう。あるいは、衣類の種類がシャツ、ズボン、帽子、靴下であっても、効果が見られれば同様に受け入れることがあるだろう。さらに、仮に排卵期が独身の女性をよりリベラルにすると仮定した場合、投票の選択、宗教的な考え、政治的価値観のいずれかに変化が見られれば、それを証拠として用いるだろう。このような分析の自由度は、人間の心理的性質に訴えかけるものであり、興味深い結果を生むために私たちの関心を引きつける。こうした統計的な自由度の結果として最も憂慮すべきことは、研究者が意図せずして自分たちに都合の良い結果を選んでしまうことがあるという点だ。これにより、標準誤差や信頼区間などの不確実性推定値が偏る可能性がある。この偏りは、データ自体が統計分析の選択を誘導することによって生じ、結果として偽陽性率が高まる。この問題は単なる理論上の懸念ではなく、実際にシミュレーションで示されている。例えば、異なる変数を統制したり、異なる標本のサイズを試したりすることで、研究者が与えられたデータセットに対して行う統計的分析によって偽陽性率が50%以上跳ね上がることが確認されている。こうした現象があるため、多くの研究者が「自分たちは仮説に基づいてデータを適切に分析している」という確信を持っていても、実際には分析過程で無意識に選んだ手法が結果を偏らせていることがある。このような分析の柔軟性は、特に科学的な論文で報告される場合に、読者が誤った結論を導きやすくなる原因となる。研究者たちが結果を報告する際に、有意でなかった他の変数について報告しない自由があるために、特定の結果のみが公刊され、誤解を与えるリスクが生じるのである。興味深いことに、科学界では「有意な結果を得るためにデータを操る研究者はいない」と主張されることが多いが、実際には、どのような変数や方法を選択するかという選択肢は幅広く、結果として意図せずに結果が歪められることが起こりうる。
関連記事