fMRI研究に潜む偽陽性の罠と対策【ChatGPT統計解析】
脳イメージング研究でfMRIを用いると多くの比較が必要となり偽陽性の可能性が高まる。研究では被験者が課題前後に脳の3次元イメージを撮影し、血流の差異で活発な脳領域を判断するが、数千のボクセルを比較するため偽陽性が頻発する。死んだサケを使った実験でもこの問題が示された。ボンフェローニ法などで対策は取られるが、検定力が下がり真の効果を見逃す恐れがある。1995年にベンジャミーニ=ホッホベルク法が導入され、偽発見率を管理しつつ統計力を維持できる手法として普及した。遺伝子研究などでは特に有効で、偽陽性の解釈が容易になる。この方法はp<0.05が結果の誤り率ではないことを理解し、多重比較問題に対処するために使用されるべきである。複数の仮説検定を行う場合、ボンフェローニ法やベンジャミーニ=ホッホベルク法のような手法を適用し、分野特有の技法を習得して偽陽性を防ぐことが推奨される。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
脳イメージングでの燻製ニシン
神経科学者はfMRIで研究を実施するときに,膨大な回数の比較をする。
そうした研究では,被験者が何らかの課題をする前とした後に,脳の3次元イメージが撮影される。
撮影されたイメージは脳内の血液の流れを示し,さまざまな課題をするときに脳のどの部分が一番活発になるのかを明らかにする。
どうやって脳の領域で活発な場所を精確に判断するのだろうか。
単純な方法として,脳のイメージをボクセル(voxel)と呼ばれる小さな立方体に分割するものがある。
課題実施前と実施後とでイメージのボクセルを比較して血流の差異が有意だったとしたら,脳のその部分が課題に関わっているという結論を出すことができる。
ここで問題となるのが,比較するボクセルが何千とあるために,偽陽性が出る可能性が非常に高くなってしまうことだ。
例えば,ある研究では「自由回答メンタライジング課題」が参加者に及ぼす効果が調査された。
被験者は「特定の感情価を有する社会的状況における個人を描写したー連の写真」を見せられ,「写真の中の人はどのような感情を感じているはずかを判断する」ことが求められた。
この試験をしている間は,脳の感情・論理に関するさまざまな中枢部分が明るくなることが想像されるだろう。
データが分析され,課題実施中に脳のいくつかの領域で活動が変化することが分かった。
イメージを比較することで,「メンタライジング課題」の前と後とで,脳内の81立方ミリメートルのとあるかたまりにp=0.001の違いがあることが示された。
研究に参加した人はいつもとは違って,参加で10ドルがもらえる大学の学部生ではない。
被験者は3.8ポンド(およそ1.72キログラム)のタイセイヨウサケで,「スキャンをした時は生きていなかった」ものだ。
神経学者は,しばしば, p<0.005という厳格な閾値でもなお有意となるボクセルが10個以上のかたまりになっていることを必須とすることで,この種の問題を抑えようとしている。
だが,1回の脳のスキャンで何万個ものボクセルを見ることになるので,そうしても偽陽性はほとんど確実に現れる。
ボンフェローニ法のような,何千回もの統計的仮説検定を実施した場合でも偽陽性率を抑える手法は,今では神経科学の文献において広く行われている。
死んだサケの実験で示されたような深刻な誤りを犯している論文はほとんどない。
しかし,
不幸なことに,ほとんどすべての論文が,独自の方法でこの問題に対処している。
241個のfMRIの研究に対して行われた検討によれば,統計的手法・データ収集方針・多重比較の補正方法の組み合わせが207種類に及んでいたという。
このことによって,研究者は,統計的に有意な結果を出すために大きな融通性を得ることになる。
偽発見率の統制
ボンフェローニ法の欠点として,実験の検定力を大幅に下げてしまうことがある。
このことによって,真の効果を発見できない可能性が高くなる。
実は,ボンフェローニ法よりも洗練された方法が存在している。
ただし,こうした方法は検定力への影響は少ないが,特効薬ではない。
しかも,こうした手法は基準率の誤りの苦労から解放してくれない。
pの閾値にまどわされて,「間違っている可能性は5%しかない」と誤って主張してしまうことはありえる。
ボンフェローニ法のような手法は,偽陽性をいくつか消すのに役立つだけのものにすぎない。
科学者がもっと興味を持っているのは,偽発見率の統制だ。
つまり,統計的に有意な結果が偽陽性である割合の統制だ。
ガン治療の例では,統計的に有意だった結果のうち,優に3分の1が偶然で,偽発見率は38%だった。
もちろん,どれだけの薬が本当に効果があったのかが分かったのは,あらかじめその数を言ったからに他ならない。
一般的には,検定の対象となった仮説のうち,いくつが真であるかを知ることができない。
山勘で偽発見率を求めることはできるだろうが,理想を言えば,データから偽発見率を知りたいところだろう。
1995年,ヨアヴ・ベンジャミーニとヨセフ・ホッホペルクが,どのp直を統計的に有意だと考えるべきかについて見分けるための非常に簡単な方法を考案した。
今まで数学的に詳しいことは触れないでいたが,この手続きがどれほど簡単かを示すために,数学的な話を述べようと思う。
具体的には以下のとおりになる。
1.統計的検定を行い,それぞれの検定についてp値を求めよう。そして,p値のリストを作って昇順に並べよう。
2.偽発見率を選んで,それを9としよう。そして,統計的検定の数をmと呼ぶことにしよう。
3.p≦iq/mとなるようなp値のうち最大のものを見つけよう。ただし,iは並び替えられたリストの中で,p値が何番目に位置するかを示すものとする。
4.そのp値とそれより小さいp値を統計的に有意であると見なす。
できた! この手続きは,すべての統計的に有意な結果のうち,平均してq%を超えて偽陽性になることはないということを保証する。
この手法は直感的なものだと思う。
もし偽発見率を小さくしたい(qが小さくなる)か,比較をたくさんする(mが大きくなる)のならば,pの閾値は保守的なものになるのだ。
このベンジャミーニ=ホッホベルク法(Benjamini-Hochberg procedure)は高速かつ有用で,統計学者と科学者に広く用いられてきた。
この手法は,遺伝子と病気の間の関係を見るといった何百個もの仮説のうちほとんどが偽だと想定される状況に特に適している(大多数の遺伝子は特定の病気に対して何の関係もない)。
通常,この手法は,ボンフェローニ法に比べて検定力が良い。
しかも偽発見率は,偽陽性率よりも解釈しやすいのだ。
p<0.05は結果が偽である確率が5%であることと同じではないことを覚えておこう。
もし複数の仮説を検定したり,多数の変数の間の相関を探し求めていたりするのならば,偽陽性が過剰になるのを抑えるために,ボンフェローニ法やベンジャミーニ=ホッホベルク法といった手法(あるいはそこから派生した手法や改良された手法)を使おう。
もし神経イメージングのように,自分の研究分野で日常的に複数の検定を行うようであれば,データをうまく扱うために特別に開発された実践と技法のうち最も良いものを学ぼう。
(マンモグラフィーの例で見たように)与えられた結果が偽陽性である確率を計算するために,基準率の事前推定をすることを学ぼう。
脳イメージング研究で用いられるfMRI(機能的磁気共鳴画像法)は、神経科学において脳の活動を観察するための強力なツールです。しかし、この方法を使って研究を行うと、膨大な数の比較を必要とするため、偽陽性(false positive)が発生するリスクが高まります。fMRIを用いる研究では通常、被験者が特定の課題を行う前と後に脳の三次元画像を撮影し、脳内の血流の変化を観察します。この血流の変化は、脳のどの部分が課題を実行する際に活発に機能しているかを示します。例えば、被験者が感情や論理に関する課題を行うときに、感情中枢や前頭葉が活性化するのが観察されることがあります。こうした観察は脳の機能を理解するために非常に有用ですが、偽陽性を引き起こす問題も同時に生じます。具体的に言うと、fMRIデータを解析する際、脳の三次元空間は小さな立方体(ボクセル)に分割され、それぞれのボクセルについて統計的な比較が行われます。例えば、課題実施前と実施後のボクセルごとの血流の変化を比較し、その差が統計的に有意であると判定された場合、その部分が課題に関わっていると結論付けられるのです。しかし、比較するボクセルが何千、何万と存在するため、一度のfMRIスキャンでは多くの統計的検定が必要となり、その過程で偽陽性が発生する確率が非常に高まります。この問題を理解するための例として、あるユニークな研究では死んだサケを用いた実験が挙げられます。この研究では、被験者として生きていない3.8ポンド(約1.72キログラム)のタイセイヨウサケを使用し、「自由回答メンタライジング課題」が課されました。被験者であるサケは、人の写真を見せられ、写真内の人物の感情を推測するよう求められました。結果として、fMRIデータの解析中に脳の一部がp=0.001の有意差を示すことが発見されましたが、これは明らかに偽陽性の例であり、実際には生きていないサケに活動はありません。このような実験は、fMRI研究における偽陽性のリスクの大きさを示す有名な事例となりました。神経科学者たちは、p<0.005というような厳格な有意性閾値を設定したり、複数の隣接するボクセルが有意である場合のみ結果を受け入れるなどの手法で、この問題に対処しようと試みてきました。しかし、1回のスキャンで何万ものボクセルを解析するため、これらの方法でも偽陽性が完全には避けられません。この偽陽性問題に対処するために、ボンフェローニ法をはじめとする多重比較補正手法が用いられます。ボンフェローニ法は、統計的仮説検定の回数が多い場合でも、偽陽性率を抑制するために開発されました。しかし、この方法は検定力(true positiveを正しく検出する能力)を大幅に低下させるという欠点があります。その結果、真の効果を見逃してしまうリスクが増大します。そこで、より精緻な方法としてベンジャミーニ=ホッホベルク法(Benjamini-Hochberg procedure)が1995年にヨアヴ・ベンジャミーニとヨセフ・ホッホベルクによって提案されました。この手法は、偽発見率(false discovery rate, FDR)を管理することを目的としています。FDRとは、統計的に有意とされた結果の中で、どれだけの割合が偽陽性であるかを示す指標です。ボンフェローニ法と比較して、この手法は検定力が高く、より実際的な結果を提供します。この方法の具体的な手順は非常にシンプルです。まず、統計的検定を行い、それぞれのp値を求めてリスト化し、昇順に並べます。次に、事前に選んだ偽発見率qを用意し、統計的検定の数をmと定義します。次に、p値が並び替えられたリストの中で、p?iq/mとなる最大のp値を見つけ、そのp値とそれより小さいp値を統計的に有意とします。この方法を用いることで、すべての統計的に有意な結果のうち、平均してq%を超えて偽陽性になることがないことが保証されます。ベンジャミーニ=ホッホベルク法は遺伝子研究のように、多数の仮説検定を行う場面において特に有用です。遺伝子と特定の病気との関連を調べる研究では、仮説の大半が無関係であることが一般的です。このような場合、FDRを制御することで、有意とされる結果が実際に信頼できるものであるかどうかをより正確に判断できます。実際には、この手法はボンフェローニ法よりも検定力が高く、偽陽性の解釈が容易です。多くの科学者はp<0.05という基準を誤解し、これは結果が偽である確率が5%であると信じていますが、実際にはこの解釈は誤りです。複数の仮説を検定する際や、多数の変数間の相関を調べる際には、偽陽性が過剰に発生しないようにベンジャミーニ=ホッホベルク法やボンフェローニ法を用いる必要があります。さらに、こうした方法は神経イメージングのように、日常的に複数の検定を行う分野でも非常に役立ちます。偽陽性率を低減するためには、データを正確に扱うための実践的な技法を学ぶことが重要です。マンモグラフィーの例で示されたように、与えられた結果が偽陽性である確率を正確に計算するためには、事前に基準率を推定する技術も重要です。偽発見率を管理する手法は、さまざまな分野で応用されており、科学者たちはこの問題に対処するための洗練された統計的アプローチを開発し続けています。これにより、データ解析の精度を高め、研究結果の信頼性を向上させることができるのです。例えば、がん治療の研究において、統計的に有意とされた結果の3分の1が偶然に基づくものであることが報告された例があります。この場合、研究者たちは事前にどの薬が効果的であるかの確率を知っていたために、結果の解釈が可能でしたが、一般的には仮説が真である割合は事前には分かりません。研究者が偽発見率を正確に見積もるには、データそのものから情報を引き出し、基準率の推定を行うことが必要です。ベンジャミーニ=ホッホベルク法の手続きは、研究者にとって直感的で使いやすい方法です。この方法を使うことで、仮説の数や比較の数が増えるほどp値の閾値が厳しくなるため、多重比較による偽陽性を適切に管理できます。さらに、この手法は広範な応用性を持ち、特に大量のデータ解析が行われるゲノム研究や脳イメージング研究において頻繁に使用されています。
関連記事