ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
ランダム化比較試験では被験者をランダムに実験群や統制群に割り当て、研究者の偏りを防ぎます。ランダム化がないと治療群に不公平な分配が生じる可能性があります。擬似反復は、同じ個体から複数回データを収集し、統計的に独立したサンプルとして扱う誤りです。例えば、少数の患者の血圧を100回測ることや、同じ培養物からの細胞を繰り返し調べるなどが挙げられます。この誤りは、結果に誤解を生む可能性があり、適切な実験計画や統計的手法によって防ぐことが重要です。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

擬似反復の統計学

ランダム化比較試験において，被験者は系統的なものによらず，ランダムに実験群か統制群に割り当てられる。

ランダムという言葉は，こうした研究を少し非科学的な感じにさせるが，通常，医学試験はランダム化比較試験でないかぎり，信頼できるものとは考えられない。

なぜそうなるのだろうか。ランダム化の何がそんなに重要なのだろうか。

ランダム化は，研究者が試験対象となるグループの間に系統的な偏りを招き入れることを防ぐはたらきがある。

もしランダム化をしなかったら，研究者はあまりリスクがなかったり，あまり手間がかからなかったりする治療法に虚弱な患者を割り当てるかもしれない。

あるいは，保険会社が新しい治療法に金を払ってくれるだろうから，裕福な患者を新しい治療法に割り当てるかもしれない。

しかし，ランダム化には隠れた偏りというものがなく，これを実行することによって各群が大体同じような人員構成になることが保証される。未知のものも含め，交絡因子が結果に影響することはない。

統計的に有意な結果を得れば，可能性のある唯一の原因が，薬ないし介入そのものであることが分かるのだ。

実際に行われている擬似反復

血圧に関する２種類の薬物治療について比較したいとする。

2000人の患者を集め，それをランダムに２グループに振り分ける。

そして，薬物治療を実施する。薬物治療の効果を得るまで１か月待ってから，個々の患者の血圧を測り，どちらのグループが血圧の平均が低いかを調べるために比較を行う。

ここでは，普通の仮説検定を実施して普通のP値を得ることができる。

標本の大きさが各グループに患者が1000人いるというものだから，２種類の薬物治療の違いを検出する検定力として優れたものが得られるだろう。

さて，別の実験計画を思い描いてみよう。

各グループに患者を1000人ずつ集めるのではなく，10人しか集めないものとする。

ただし，患者の血圧を数か月にわたり100回測るものとする。こうすることで，日によって変化するかもしれない個人の血圧をより正確なものに修正することができる。

あるいは，血圧計が完璧に較正されていないということを心配して，日ごとに違う血圧計で測るかもしれない。データ点の数はグループごとに1000個あるが，患者の数は重複して数えなければ10人しかいない。

標本の大きさが同じようだから，同じ検定力の同じ仮説検定を実施できる。

だが，本当にできるのだろうか。

標本の大きさが大きいことは，グループ間の違いはどれも治療の結果によるものであって遺伝的特徴や前から存在する条件によるものでないことを保証するものと想定されている。

しかし，この新しい実験計画では，新しい患者を集めているわけではない。既存の患者の遺伝的特徴を100回数えているだけなのだ。

この問題は擬似反復(pseudoreplication)として知られていて，極めてありふれたものだ。

例えば，ある培養物からの細胞を調べた後に，同じ培養物からさらに細胞を取り出して調べる形で，生物学者が結果を｢反復｣するかもしれない。

たった２匹のラットから得られた何百ものニューロンは標本の大きさが大きいと主張するといった形で，神経科学者は同じ動物からニューロンを複数調べるかもしれない。

海洋生物学者は，同じ水槽の中にいる魚同士は独立していないということを忘れて，水槽の魚に対して実験を行おうとするかもしれない。

この場合，試験しようとしている処置だけでなく，水槽の条件が魚に影響するかもしれない。

これらの実験がラットや魚の一般的な傾向について明らかにしようとするものならば，その結果は大いに誤解させるものになる。

擬似反復は，間違った質問に答えるデータを集めることと捉えることができる。

動物行動学者は，鳥の鳴き声を理解しようとすることがしばしばある。

例えば，さまざまな鳴き声を鳥に聞かせたときに，鳥がどう反応するかを評価するのだ。

鳴き声は，人間の訛りのように，地域によって変わることがある。そして，こうした鳴き声の方言は比較することが可能だ。

1990年代より前において，こうした実験の一般的な手続きとは，各方言から代表的なさえずりを１つ録音して，これらのさえずりを10羽か20羽の鳥に聞かせて反応を記録するというものだった。

観察する鳥を増やせば増やすほど，標本の大きさは大きくなる。

だが，研究で解明したいことは，さまざまなさえずりの方言についてであって，個々のさえずりについてではない。さえずりがどれほど「代表的」なものであったとしても，それを多くの鳥に聞かせることが，方言Ａがシルスイキツツキのオスにとって方言Ｂより魅力的である証拠に結びつくわけではない。

特定のさえずりあるいは録音が魅力的だという証拠にしかならないのだ。研究で解明したいことに対して適切な答えを得たければ，双方の方言におけるさえずりの標本がたくさん必要となるだろう。

擬似反復は，先はどの血圧の実験の例のように，同じ被験者から時間の経過とともに別々の測定を行うこと（自己相関［autocorrelation])によっても引き起こされうる。

同一の被験者について測定した日ごとの血圧の間には，企業の年ごとの収益の数値と同様に，自己相関がある。

こうした自己相関の数学的構造は複雑で，患者ごとに，あるいはビジネスごとに異なったものになる。

うっかりとした科学者が，各々の測定がその他の測定から独立しているかのようにこうしたデータを扱ってしまえば，擬似反復による結果を手に入れてしまうことになる。

そして，これは誤解を招く結果になる。

擬似反復への申し開き

実験計画を綿密に立てることで，測定同士の依存関係を打破することができる。

農場実験では，各耕地に植えてある異なる品種の穀物の成長率を比較することがあるだろう。

しかし，耕地によって，土壌や潅漑の質が異なるのならば，各々の耕地でどれだけ多くの植物を測定したとしても，穀物の違いと土壌の条件による違いとを切り分けることができないだろう。

より良い実験計画にするには，各耕地を小さな区画に分けて，各々の区画にランダムに穀物の品種を割り当てれば良いだろう。

区画として選択できる範囲が十分に幅広いものならば，土壌の違いが，ある穀物に対して他の穀物より系統的に有利になることはないだろう。

あるいは，実験計画を変更できない場合，統計分析が擬似反復の説明に役立つ可能性がある。

統計の技法は，各測定が互いに独立していない状況を魔法のように消し去るわけではないし，適当でない実験計画から良い実験結果を得られるようにするわけでもない。
測定の間の依存関係を定量化し，データを正確に解釈できる方法を提供するだけだ(つまり，こうした統計的技法は，素朴な分析と比べれば，信頼区間が広くなったり，P値が大きくなったりする)。

擬似反復の説明に役立つ統計の技法としては以下のようなものがある。

「独立していないデータ点の平均をとる　例えば，ある個人の血圧の測定結果すべてを平均し，それを１つのデータ点と見なす。これは完璧な方法ではない。もしある患者について他の患者よりたくさん測定していたとしても，そのことは平均の数値に反映されない。測定の確実さのレベルは測定するほど上がるが，これを結果に反映したければ，測定がたくさんなされた患者に対する重みが大きくなるような重み付きの分析を行うべきだ。独立していないデータ点を取り分けて１つ１つ分析する　患者の血圧の測定をすべてまとめるかわりに。１人の患者から，例えば５日目の血圧だけを取り出して，他のデータ点は無視する。しかし，注意が必要だ。こうしたことを測定日ごとに繰り返せば。次章で議論する多重比較の問題を引き起こすことになる。独立していないことをP値と信頼区間を調節することで補正する　データ点の間の依存関係の度合いを推定・説明する手続きとして，多くのものが存在している。例えば，クラスター標準誤差(clustered standard error), 反復測定検定(repeated measures test),階層モデル(hierarchical model)などが挙げられる。」

ランダム化比較試験において被験者は系統的な偏りを避けるためにランダムに実験群か統制群に割り当てられます。ランダムという言葉は非科学的に聞こえるかもしれませんが、医学研究ではランダム化比較試験が信頼されており、これが信頼できるデータを得るための最善の方法とされています。なぜランダム化が重要なのでしょうか。ランダム化は、研究者が意図せずに被験者グループに偏りをもたらすことを防ぐためです。ランダム化されない場合、研究者は虚弱な患者をあまりリスクがない治療群に割り当てたり、裕福な患者をより高価な治療に割り当てるなどの無意識の選択をしてしまうかもしれません。ランダム化により、こうした無意識の偏りや交絡因子の影響を排除し、統計的に有意な結果が得られた際には、その結果が治療そのものによるものだと結論づけることができます。擬似反復（pseudoreplication）とは、統計的な独立性を持たないデータを独立したデータ点として扱う誤りを指します。この問題は、例えば血圧の実験で、同じ患者から100回の血圧測定を行い、それを100人分のデータとして扱う場合に発生します。各患者の血圧は個別のデータ点として扱われるべきですが、同一個体からの複数回の測定を独立したデータとして扱うと、統計的な歪みが生じます。結果として、治療効果を誤って評価する可能性があり、研究結果の解釈が誤ったものになることがあります。例えば、研究者が2000人の患者をランダムに2つのグループに分け、それぞれのグループに異なる血圧治療を施したとします。1か月後に各患者の血圧を測定し、どちらの治療が効果的かを比較する場合、各グループに1000人ずつの患者がいるため、標本数が十分であり、検定力も高くなります。しかし、もし各グループに10人しかいない場合であっても、各患者の血圧を100回測定することで、測定回数を増やし、標本数を増やしたように見せかけることが可能です。これにより、統計的には十分な標本数があるように見えますが、実際には同じ患者のデータを繰り返し使用しているにすぎません。これは擬似反復の典型的な例です。擬似反復は、実験の信頼性を低下させ、誤った結論を導く原因となります。同様に、神経科学の研究で、たった2匹のラットから得たニューロンを多数測定し、それを標本数として扱う場合も擬似反復に当たります。この場合、ラットという個体間の違いを無視して、同じラットから得たデータを複数の独立したデータ点として扱ってしまうことで、結果が歪む可能性があります。さらに、海洋生物学の研究では、同じ水槽にいる魚を個別のデータ点として扱う場合がありますが、これも擬似反復の一例です。水槽内の条件が全ての魚に影響を与えるため、魚個々の反応を独立したものとして扱うことは誤りです。このように、擬似反復は異なる科学分野において非常に一般的な問題です。特に、実験動物や細胞培養など、限られた資源を使用する研究では、誤ってデータ点を独立したものと見なすリスクが高くなります。擬似反復の問題を避けるためには、実験デザインの段階で十分に注意を払うことが必要です。例えば、異なる方言を持つ鳥の鳴き声の実験では、各方言から一つの代表的な鳴き声を録音し、それを複数の鳥に聞かせてその反応を評価することがあります。この手法では、個々の鳴き声の魅力は評価できますが、方言全体の魅力についての結論を出すことはできません。正確な結論を得るためには、複数の鳴き声を使用して方言間の違いを比較する必要があります。また、擬似反復は自己相関（autocorrelation）とも関連しています。同一の被験者から複数回の測定を行うと、これらの測定値は独立しておらず、時間の経過とともに相互に影響を与える可能性があります。例えば、同じ患者の血圧を毎日測定した場合、その測定結果は前日の結果に影響を受ける可能性があります。これは企業の年次収益など、時系列データによく見られる自己相関の問題と同様です。この自己相関を無視して統計解析を行うと、誤った結論を導く可能性があります。擬似反復を防ぐためには、実験計画を工夫することが重要です。例えば、農場実験では、異なる耕地に異なる品種の作物を植えてその成長率を比較することが一般的です。しかし、耕地ごとの土壌条件や潅漑の違いが成長に影響を与える場合、同じ耕地内で複数の植物を測定しても、データの独立性は確保できません。このような場合、耕地を小さな区画に分け、それぞれの区画に異なる品種をランダムに割り当てることで、土壌条件の影響を最小限に抑えることができます。また、実験計画を変更できない場合でも、統計的手法を用いてデータの依存性を考慮することが可能です。例えば、クラスター標準誤差（clustered standard error）や反復測定検定（repeated measures test）、階層モデル（hierarchical model）などの手法を使用することで、測定間の依存関係を考慮しながらデータを分析できます。ただし、これらの手法は誤った実験デザインを補正するものではなく、あくまでデータの依存性を考慮して解析するための手段です。実験の信頼性を高めるためには、測定点間の依存性を適切に評価し、統計解析に反映させることが重要です。擬似反復を避けるための具体的な方法としては、まず独立していないデータ点を平均化して扱う手法があります。例えば、患者の血圧を複数回測定した場合、すべての測定値を平均し、それを1つのデータ点として扱うことが考えられます。しかし、この方法では、多くの測定を行った患者のデータが過小評価される可能性があります。測定の確実性を高めるためには、測定回数に応じた重み付けを行う必要があります。さらに、独立していないデータ点を取り分けて分析する手法もあります。例えば、1人の患者からの5日目の血圧のみを使用し、他の日のデータを無視する方法です。しかし、このアプローチでは、多重比較の問題が生じる可能性があるため注意が必要です。最後に、データ間の依存性を調整するための統計手法として、P値や信頼区間の補正があります。クラスター標準誤差や階層モデルなどの手法は、データ間の依存関係を推定し、適切に説明するために用いられますが、これらの手法が完全な解決策ではないことを理解しておくことが重要です。擬似反復は、実験デザインやデータ解析の不備によって発生する問題であり、誤った結論を導くリスクがあります。

関連記事

農業生産・食料自給に関する統計

適切な労働時間と休日数は

脳イメージングでの燻製ニシン

臨床試験の実施と臨床データマネジメント

数字から受ける印象の統計学

不必要な二分法

テストの信頼性の統計学

臨床研究と臨床試験のデザイン

執行役員と取締役の違いは，解任＝解雇かどうかの違い

1

2

3

4

5

6

ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【多変量解析】
【医療統計解析】

ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

ランダム化比較試験と擬似反復の誤りを防ぐ方法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

擬似反復の統計学

実際に行われている擬似反復

擬似反復への申し開き

メニュー

サブメニュー

最新記事