統計の自由と決断が導くデータ分析の真実【ChatGPT統計解析】
統計は退屈で単調だという誤解があるが、実際は多くの決定が必要だ。データを集めてソフトで分析するだけではなく、どのコマンドを使うか選ぶ必要がある。同じ問題でも研究者ごとに異なる分析になることが多い。測定するもの、調整する変数、外れ値や除外する事例の定義、グループの設定、欠測データの扱い、データ収集の継続など、決定は多岐にわたる。これらの決定が分析結果に大きな影響を与えることがあり、選択の自由が偏りを生む可能性もある。そのため、分析者はデータを見る前に決定を下すことが求められる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
研究者の自由:好ましい雰囲気?
統計は退屈で単調なものだという広く知られた誤解が存在する。
データをたくさん集めて,数をExcelとかSPSSとかRとかにつめこんで,そしてソフトがカラフルな図を出力するまで棒でたたく。
おしまい!
統計分析者がしなくてはならないことは,何かコマンドを入力して,結果を読みあげるだけだ。
だが,どのコマンドを使うかについては選ばなくてはならない。
2人の研究者が同じ問題に答えようとして,まったく違った統計分析をすることはありえるし,実際に違った分析になることはしばしばある。
決定を下すべきことは,たくさんあるのだ。
何を測定するか
これは言うほど自明なことではない。
精神科薬物療法について試験しようとする場合,症状を測定する尺度としてさまざまな尺度が候補となる可能性がある。
例えば,各種の脳機能の試験,医師からの報告,その他さまざまなものが候補となるだろう。
その中で,どれが最も役に立つのだろうか。
どんな変数を調整するか
医学的試験ならば,患者の年齢,性別,体重、BMI、以前の病歴,喫煙の有無,薬の使用の有無,あるいは研究前に行われた医療検査の結果を統制することになるかもしれない。
これらの要因のうち,どれが重要なのだろうか。
どれが無視できるのだろうか。
どうやって測定するのだろうか。
どんな事例を除外するか
食事の計画を試験しているとしたとき,下痢で倒れてしまった被験者が出てきた場合は結果が異常なものになるから,その被験者を除外したいと考えるかもしれない。
あるいは下痢はその食事の副作用であって,その被験者を含めなくてはならないかもしれない。
理由が分かるものにせよ分からないものにせよ,普通のものから外れてしまっている結果というものは常に存在していて,そうしたものを除外したり,特別に分析したりしたくなるかもしれない。
どんな事例を外れ値(outlier)と見なすべきだろうか。
そして,外れ値にどう対処すべきなのだろうか。
グループをどう定義するか
例えば,患者を「過体重」・「正常」・「低体重」というグループに分けたいとする。
どこに境界を設定すべきだろうか。
BMIが「過体重」の範囲に入ってしまっている筋骨たくましいボディビルダーについてはどうすれば良いだろうか。
欠測データはどうすべきか
新しい薬を投与したときのガンの寛解率について調査することがあるかもしれない。
5年に及ぶ調査を実施するとしても,6年後あるいは8年後に腫瘍が再び現れる患者がいるかもしれない。
データの中にはこうした病気の再発が含まれない。
薬の有効性について測定する際に,このことについてどう説明すべきだろうか。
データをどれだけ集めるべきか
決定的な結果が出たらデータ収集をやめるべきだろうか。
それとも,すべてのデータが集まるまで計画したどおりのデータ収集を続けるべきだろうか。
もし希望した数の患者を集めるのに困難があったとしたら,どうすべきだろうか。
統計分析上の決定
どの手続きが最も適切かを探ることに何時間もかかることはありえる。
論文では,実施された統計分析についてはたいてい説明がある。
だが,なぜ研究者がある方法を選んで他の方法を選ばなかったかということについての説明はいつもあるわけではないし,他の方法を選択したとしたらどんな結果が得られたかについての説明があるわけでもない。
研究者は自身が適切だと感じるものを何でも選ぶ自由がある。
研究者は正しい選択をするかもしれない。
だが,もしデータに対して異なった分析をしたとしたら,何か起きるだろうか。
こうした統計の自由は,たとえ分析者が誠意を持っていたとしても,知らず知らずのうちに分析に偏りがもぐりこむことを許してしまう。
分析に関して下したわずかな数の決定が,結果を大幅に変えることはありえる。
このことからは,分析者がデータを見る前に決定を下すべきだということが示唆される。
統計には退屈で単調なものだという誤解が根強く存在しているが、実際の統計分析はそのような単純なものではなく、非常に多くの意思決定が含まれている。データを大量に集め、ExcelやSPSS、Rといったソフトに入力し、ソフトがカラフルな図を生成するのを待つというステレオタイプなイメージがあるが、これだけでは統計分析の本質を理解しているとは言えない。分析者が行わなければならないのは、単にいくつかのコマンドを入力して結果を読み上げることではなく、その過程で多くの選択肢を吟味し、適切な手法を選ぶことである。例えば、どのコマンドを使用するかは非常に重要な判断であり、これによって結果が大きく変わることがある。実際、2人の研究者が同じ研究問題を解決しようとしても、用いる統計手法が異なり、結果として得られる結論が異なることは少なくない。これは研究において非常によく見られることであり、どの手続きを選択するかは研究者の判断に委ねられているためである。分析の中で下すべき決定は非常に多く、例えば何を測定するかという基本的な問いですら、自明ではない。精神科薬物療法を試験する場合を考えると、症状を測定する尺度として脳機能の試験、医師からの報告、患者自身の評価など、さまざまな尺度が候補として挙げられる。どの尺度が最も適切かを決定することは容易ではない。さらに、測定に加えて、調整する変数も多岐にわたる。医学的な試験であれば、患者の年齢、性別、体重、BMI、過去の病歴、喫煙習慣、薬の使用状況、研究前に実施された検査結果など、調整すべき要因は数多い。これらの中でどれが重要で、どれが無視できるかを判断することもまた研究者に委ねられている。測定方法についても決断が求められる。例えば、どんな事例を研究対象から除外すべきかという問題もある。ある食事計画の試験で下痢を起こした被験者がいた場合、その結果が異常であると考え除外するか、それともその事例が食事の副作用を示している可能性を考慮し、含めるべきかを判断する必要がある。このように理由が明確なものからそうでないものまで、結果が通常とは異なる場合、分析者は除外や特別な分析を行いたくなる。外れ値、すなわちoutlierをどう見なすか、またその対処方法も重要な問題である。グループをどう定義するかという問いも意思決定に含まれる。例えば、患者を「過体重」「正常」「低体重」といったグループに分類する際、BMIのどの値を境界とするかを決定する必要がある。特に筋肉質であるためにBMIが「過体重」に分類されるボディビルダーのような特殊な例はどのように扱うべきかも問題となる。また、欠測データはどう扱うかという問いも重要だ。例えば、新薬のガン寛解率を調査する場合、5年間の追跡調査を計画しても、調査終了後に腫瘍が再発する患者が出てくることがある。こうしたデータの再発情報が含まれていない場合、薬の有効性をどう説明するかも難題となる。さらに、データをどれだけ集めるべきか、データ収集をいつ終了すべきかについても決断が求められる。決定的な結果が得られた場合にデータ収集を終了するのか、それとも計画通り最後まで収集を続けるのか、希望する数の被験者を集めることが難しい場合にはどう対応するかも重要なポイントだ。統計分析では手続きが複雑なことが多く、どの分析手法が最も適切かを探るために時間を費やすことも多い。論文の中では実施された統計分析が説明されることが多いが、なぜその方法が選ばれ、他の方法が選ばれなかったのかの理由まで詳細に記されることはまれである。また、もし他の方法を選択していたらどうなっていたかについても説明はほとんどない。研究者は適切だと感じる手法を自由に選ぶことができ、これが正しい選択であることもあれば、そうでないこともある。仮に異なる分析手法を用いた場合にどういった結果が得られるかを考えると、この自由がいかに結果に影響を及ぼしうるかが見えてくる。誠実な分析者であっても、分析の自由度によって知らず知らずのうちに偏りが入り込むことがある。小さな意思決定でも、結果に大きな影響を及ぼすことがあり、分析者がデータを見る前にできるだけ多くの決定を下しておくことが推奨される理由はここにある。このような事前の計画は、後になって結果を見てからの意思決定が分析にバイアスをもたらすリスクを軽減する。
関連記事