Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学において注意すべき交絡【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学において注意すべき交絡【統計解析講義基礎】

統計学において注意すべき交絡【統計解析講義基礎】


統計学において注意すべき交絡【統計解析講義基礎】

 

目次  統計学において注意すべき交絡【統計解析講義基礎】

 

交絡

 

農地を2つの区画に分け、一方にはじゃがいもの品種Aを、他方には品種Bの栽培を開始します。

 

半年後の収穫を確認したところ、品種Bの方が収穫が多かった。品種Bの方が品種Aよりも良い品種と判断してよいでしょうか。

 

フィッシャーはこの命題に対し否定的見解を示しました。もし、品種Bを栽培した土地が、南向きの日当たりの良い土地であるとすると、品種Bの方が収穫が多かったのは、品種Bが良い品種だからというわけではなく、単に品種Bを栽培した土地が日当たりが良かったためと考えられるからです。

 

この場合、日当たりという因子が、品種Aと品種Bの優劣の判断を妨げていることになります。

 

この日当たりに相当する、結果の解釈を歪める因子を交絡因子と呼び、結果の解釈が歪められた状態を交絡といいます。

 

ではフィッシャーはこの日当たりの交絡の問題をどう解決したでしょうか。

 

かれは、土地を単に2区画に分けるのではなく、もっと細かく小さい区画をたくさん作り、それぞれの区画に品種Aと品種Bをランダム(無作為)に割付け栽培することにしました。

 

こうすることにより、日当たりの効果が品種Aにおいても品種Bにおいても均等になります。

 

ここでのポイントは、区画を数多く作成すること(反復)、AとBを無作為に割り付けること(ランダム化)および区画を細かく区切ること(局所管理)を行ったことです。

 

フィッシャーは、@反復、Aランダム化、B局所管理 の3つが実験計画を立案する上で大変重要だとしました。これらをフィッシャーの3原則と呼んでいます。

 

この例のような日当たりという交絡因子は、農業従事者にとっては常識でありはじめからわかっているので比較的解決しやすい問題といえます。

 

しかし、私たちの気がつかない交絡というのも結構あり、これが厄介なのです。

 

これは本当にあった話なのですが、ブロッコリーを良く食べる集団と食べない集団を比較したところ、ブロッコリーを良く食べる集団の方が高脂血症の割合が多かったというのです。
私たちは常識的には低カロリーで体に良い緑黄色野菜のブロッコリーで高脂血症になるというのはとても考えにくいです。

 

これも交絡のなせるわざなのですが、いったい何が交絡しているのでしょう。

 

ヒント:ブロッコリーに私たちは何をつけて食べるでしょう。

 

正解はマヨネーズです。マヨネーズの摂取が高脂血症と因果関係があったということです。

 

それを、ブロッコリーと間違えて関連づけていたということです。

 

このマヨネーズのような交絡因子は、なかなか気がつかないのでは、と思います。

 

逆に、わかりやすい交絡因子は計画の段階でなるべく解決しておくことが大切です。

 

例えばある集団を2群に割付けて比較する際には、性別や年齢が交絡しないように、計画の段階で各群の男女比、年齢比が均等になるように設計することが大切です。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計学において注意すべき交絡【統計解析講義基礎】

統計学において注意すべき交絡【統計解析講義基礎】

統計学において注意すべき交絡【統計解析講義基礎】