バッチ生物学|【統計学・統計解析講義応用】
バッチ生物学
新技術が,生物学の領域においてデータの爆発的増大を生んだ。マイクロアレイと呼ばれるチップ上の安価な研究室によって,何千ものタンパク質や遺伝子の活動を同時に追跡できるようになった。
マイクロアレイにはさまざまなタンパク質や遺伝子に化学的に結合するプローブが何千も含まれている。
そして,蛍光染料を用いることで,各プローブに結合した物質の量をスキャナーで測ることができる。
特に,ガンの研究では,こうした新しい技術が役立ってきた。こうした技術によって,研究者は,ガンにかかった細胞と健康な細胞の双方において何千もの遺伝子発現を追跡することができるようになった。
こうすることで,健康な組織には無害であるような,ガンの新しい標的治療法が生まれるかもしれない。
マイクロアレイは,蛍光染料を検出する機械においてバッチとして処理されるのが普通だ。
大規模な研究では,異なるマイクロアレイは,異なる機械を使う異なる研究室によって処理されるかもしれない。
また,素朴な実験の設定として。ガンにかかった標本と健康な標本をたくさん集め,それをマイクロアレイに注入し,ガンにかかった標本は火曜日に,健康な標本は水曜日に処理するようなこともあるだろう。
マイクロアレイの結果は,処理するバッチごとに大きく異なる。
機械の較正が違ったものになるかもしれないし,研究室の温度の違いが化学反応に影響するかもしれない。
そして,異なる瓶に入った化学試薬がマイクロアレイの処理に用いられるかもしれない。
時には,実験データにおける変動の最大の要因が,マイクロアレイが処理された曜日になることもある。
もっとまずいことに,こうした問題は,すべてのマイクロアレイに対して同様に影響するわけではない。
実際,異なったバッチで処理されると,遺伝子ペアの活動の相関が完全にひっくり返ることもありえる。
そのため,標本を増やしても,生物学実験におけるデータ点が増えることに必ずしもつながらないのだ。
新しい標本が以前のものと同じバッチで処理されたとしたら,これは機器がもたらす系統的誤差を測定しているに過ぎない。
ガンにかかっている細胞一般については何も分からないのだ。
ここでも,綿密に実験を計画することで問題を緩和することができる。
2つの異なる生物学的なグループが試験の対象となっている場合,各グループを均等にバッチに分ければ,系統的な違いがグループごとに異なる影響を及ぼすことはない。
加えて,個々のバッチがどのように処理されたのか,個々の標本はどのように保管されたのか,どんな化学試薬が処理中に使われたのかについて,しっかりと記録を取るようにしよう。
そして,データ分析に当たる統計分析者が,こうした情報を使って問題が検出できるように,情報を入手できるようにしておこう。
例えば,統計分析者は,バッチの違いが大幅に異なる結果を生んでいるかどうかを判断するために,データに対して主成分分析(principal component analysis: PCA)を行うことができるだろう。
主成分分析をすることで,データの中の変数の組み合わせのうち,どれが結果の違いに最大の影響を与えているかを説明するのだ。
もしバッチの違いを反映するバッチ番号が非常に大きな影響を与えるものだということが示されれば,バッチ番号を交絡変数として説明に入れた上で分析することが可能になる。
関連記事