統計的に小さな極端なもの|【統計学・統計解析コラム】
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計的に小さな極端なもの
事実の誇張は,小規模で検定力の足りない研究において,結果が非常に幅広くなることから引き起こされる。
時に幸運を引き当てて,統計的に有意だがかなり過大に評価された結果を得る可能性が高い。
こうした幅の広さは,有意性検定をしなくても問題を引き起こしうる。
ここで,公立学校の改革を担当しているとしよう。
最も良い教授方法を調査する一環として,学校の大きさが標準化テストの得点に与える影響を見る。
小さな学校の方が大きな学校より成績が良いのだろうか。
小さな学校をたくさん建てるべきだろうか。
それとも大きな学校を少しだけ建てるべきだろうか。
この問題に答えるため,成績が最高レベルの学校をリストにまとめる。
平均的な学校の生徒数は1000人程度だが,成績上位の10校はほとんどすべて生徒数がそれより少ない。
このことからは,小さな学校が最も良くやっているように見える。
教員が生徒を知ることができて,個別に助けることができるからかもしれない。
そして,成績が最低レベルの学校は何千人もの生徒と働き過ぎの教員がいる都会の大きな学校だろうと予測しつつ,成績が最低レベルの学校を見る。
なんと! 成績が最低レベルの学校は。みんな小さな学校だった。
何が起きているのだろうか。
学校の中でも規模が小さいものほど,テストの平均得点が大きくばらついている。
こうなっているのは,こうした学校に生徒が少ないからだ。
生徒が少なければ,教師の真の能力を証明するために必要なデータ点が少ないということになる。
だから,普通とは違った得点が少しあるだけで,学校の平均は大きく揺らぐのだ。
学校が大きなものになるほど,テスト得点のばらつきは少なくなる。そして,実は,学校の規模が大きくなるほど,テスト得点は平均して増加しているのだ。
他の例を挙げよう。
米国では,腎臓ガン罹患率が最低レベルである郡は,中西部・南部・西部の田舎の郡である傾向がある。
どうしてこうなるのだろうか。
田舎の人は,運動量が多く,汚染の少ない空気を吸っているのかもしれない。
あるいは,ストレスの少ない生活をしているのかもしれない。
しかし,腎臓ガン罹患率が最高レベルである郡も,中西部・南部・西部の田舎の郡である傾向がある。
無論,田舎の郡の人口がとても少ないことに問題のカギがある。
住民が10人しかいない郡に腎臓ガン患者が1人いるだけで,その郡が国内で腎臓ガンの罹患率が最も高い郡になってしまう。
つまり,小さな郡は,単に住民が非常に少ないという理由により,腎臓ガン罹患率が非常にばらついてしまうのだ。
ガン罹患率の信頼区間もそれに応じて広くなる。
この問題に対処するためによく使われる戦略として,縮小(shrinkage)というものがある。
住民が少ない郡について,その郡のガン罹患率と全国平均との重み付け平均を取ることで,ガン罹患率の推定を全国平均に向かって縮めるのだ。
住民が少ない郡なら,全国平均への重み付けを大きくする。
大きな郡なら,郡の重み付けを大きくする。
現在,縮小は,ガン罹患率の地図作成など,さまざまな用途でよく使われる手法となっている。
残念なことに,この方法は逆方向に結果を偏らせるものとなる。
本当に異常な罹患率を示している小さな郡は,実際よりも全国平均にずっと近い罹患率だと推定されてしまうのだ。
この問題に対処する単一の方法は存在しない。
他の最善の方法として,問題を完全に回避してしまうことが挙げられる。
例えば,郡ごとに罹患率を推定するかわりに,下院の選挙区を使うことがありえる。
米国では下院の選挙区はほぼ同じ人口になるように設計されている。ただ,選挙区は郡よりだいぶ大きいし,ゲリマンダーによって変な形をしていることがしばしばある。
選挙区に基づく地図は,統計に関して誤解を招くものにはならないだろうが,解釈するのは難しいままだ。
もちろん,標本の大きさをむりやり等しくすることは,いつも使える手段ではない。
例えば,オンラインストアでは,顧客の評価に基づいて商品を並び替える必要があるが,どの商品に対しても同じ数の顧客に評価させるようなことはできない。
他の例として, redditのように,ユーザーの評価によってコメントが並び替えられる討論ウェブサイトがある。
コメントは,時期や場所や投稿者によって,受ける評価の数がかなり変わってくる。
こうした状況には,縮小が役に立つ。
オンラインストアでは,商品の評価と何かしらの全体の平均との間の重み付け平均を使うことができる。
ほとんど評価がない商品については,全体的な平均をもって取り扱われるだろうし,何千もの評価を受けている商品については,それ自身の真の評価によって並び替えられる。
星を付ける評価でなく,単純に肯定か否定かの2択の評価を用いるredditのようなウェブサイトでは,肯定の評価をした人の割合の信頼区間を求めることが代替手段として挙げられる。
まずコメントに対して少ししか評価がないという状況で,信頼区間が広いというところから始まる。
その後,コメントが集まっていき,決定的な値(「70%の評価者がこのコメントにいいねしました」といったもの)にたどり着くまで区間の幅が狭まっていく。
そして,コメントは,信頼区間の下限に基づいて並び替えられる。
新しいコメントは最も下から始まるが、そうしたコメントの中で非常に良かったものは,評価を集めて信頼区間が狭まるにつれてページをはい上かっていく。
そして,コメントは肯定的な評価の総数ではなく,比率で並び替えられるので,新しいコメントでも,何千もの評価をすでに集めたコメントに対抗できるのだ。
適切な標本の大きさを決めるために、研究を計画するときに検定力を計算しよう。
いいかげんにしてはならない。
コーエンの古典的名著「行動科学のための検定力分析」に当たるか,統計コンサルタントに話をしよう。
もし,標本の大きさが現実的なものでなければ,研究の限界に注意しよう。
正確に効果を測る必要があるのならば,単に有意性の検定をするのではなく,検定力のかわりに確信度を用いよう。
仮定した効果を意図した精度まで測定できるように実験を計画しよう。
「統計的に有意でない」ことは「ゼロ」を意味しないことを思い出そう。
たとえ結果が有意でなくても,その結果は,収集したデータから分かる推定のうち最も良いものを表している。
「有意でない」ことは「存在しない」ことを意味しない。
明らかに検定力の足りない研究の結果は懐疑的に見よう。
そうした研究は事実の誇張によって大げさになっているかもしれない。
統計的有意性に関係なく,データと一貫する答えの範囲を決定するために,信頼区間を用いよう。
大きさの異なる集団を比較するときは,信頼区間を計算しよう。
信頼区間は大きな集団で得られる付加的な確実性を反映する。
関連記事