日常と統計を揺るがす歪曲とバイアスの真実【ChatGPT統計解析】
データの歪曲性とバイアスについて説明し、統計学と日常生活の例を通じてその影響を解析する。歪曲性はデータ分布が平均値の上か下に偏っていることを示し、観測値の偏りが大きいほど歪みが強くなる。一方でバイアスは研究デザインや実施、解析の問題から生じる誤差で、結果に偏りをもたらす。例えば、サッカーの試合での誤審や、選挙予測の誤りなどは、バイアスの一例。統計データの分析では、データの歪曲を数式で解析し、バイアスを避けるための慎重なサンプル選定や質問設計が必要とされる。歪曲とバイアスは研究結果や日常の判断に大きな影響を及ぼす。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
バイアス・偏りとのつきあい方
私の人生における素晴らしい瞬間の1つに、サッカーヨーロッパチャンピオンズリーグのイングランド-スペイン戦があり、まるで昨日のことのように思い出します。
その試合ではスペインの選手がシュートを失敗し、そのボールが他のスペイン選手に当たって、イングランドのキーパー脇をすり抜けてゴールが入りました。
しかし、審判はオフサイドと判定し、ゴールを認めませんでした(よかった!)。しかし後で映像を再生するとゴールは成立していたと判明しました。
私は信じられませんでした。試合中に誤った判断がなされたにもかかわらず、イングランドファンがその結果で苦しむことはなかったのです。
翌日、イングランドのメディアは「われらの勇敢な若者たち」と称賛の言葉で埋め尽くされました(イングランドはPK戦で何とか勝利しました)。
一方、スペインのメディアは、審判の明らかに偏った判断に激怒していました。
私からしてみれば、もしスペインの選手が最初から歪曲したシュートを打たなければ、そもそも審判のことなど議論していないはずです。
しかしそうなると、私の見方にバイアスがないともいえないでしょう。
歪曲skewは「一方に偏っている」という意味です。
統計学もいくつかの理由によって「一方に偏る」ことがあります。
まず、片方により多くの観測値があり、データ自体がそのような場合です。
下のグラフはアメリカの成人の体格指数(BMI(体重(kg)/身長(m2))調査から引用しています。
このデータは右に歪曲しています。
やや軽体重のアメリカ人がいるかもしれませんが、過体重側にいるアメリカ人はとても多いことがわかります(20〜25が正常)。
中央値より上の観測値が、中央値より下の観測値に比べて、中央値から離れている傾向があることから、このデータは右に歪曲しているといえます。
この結果から、平均値は中央値よりも大きいことがわかります(平均値26.5、中央値25.7)。
左に歪曲するデータは平均値が中央値より小さい場合です。左に歪曲するデータのよい例として、妊娠期間の例を示します。
左側に未熟児が長いスソのようにあるものの、右側に予定日よりだいぶ遅く生まれた新生児のスソはありません。
これは、妊娠期間が長いと危険なので、通常より2週間以上長く身ごもっていることを医師が許さないためです(その網目を潜り抜けた女性もいるようですが)。
その結果、平均値は中央値より小さくなります。
歪曲したデータの解析と解釈
もう一つの歪曲の意味は「真実からの歪曲」です。
実に見事に事実を誤って捉えた有名な世論調査があります。
1936年にフランクリン・D・ルーズベルトが選挙に立候補した際、リテラリーダイジェスト誌が選挙当日の結果を予想するために世論調査を実施しました。
そこで2つの問題がありました。
1つは、ほとんどのサンプルは電話帳から集められたことです。
大恐慌時代は比較的少数の富裕層しか電話を所有しておらず、裕福な人たちはルーズベルトと彼の「ニュー・ディール政策」に好感をもっていない傾向があったのです。
もう1つの問題は、世論調査への回答率がとても低く、20〜25%しか郵便投票の返事がなかったことです。
また、特にルーズベルトを好まない投票者は、その胸の内をリテラリーダイジェスト誌に伝えることにやる気を出していたようでした。
「リテラリーダイジェスト誌は歪曲した投票者のサンプルを使用した」といいたいところでしょう。
統計家は「歪曲」という表現を偏ったデータの説明に使う傾向があります。
実際、データの「歪曲性」を、数式を用いて平均値や標準偏差を解析するのと同じように解析することができます。
誤った予測に繋がる実験方法や統計解析のエラーの説明に、統計家はバイアスbiasという言葉を使います。
リテラリーダイジェスト誌の調査では、回答した人々がアメリカ人の投票を代表するサンプルではなかったことから、バイアスがかかっていたといえます。
医学調査でも、このような選択バイアスselection biasによって偏りが入る可能性があります。
例えば、心臓発作を起こした患者の生存率を心臓の外科手術を受けた患者と受けていない患者で比べるとします。
しかし、状態が悪い患者は手術を受けられない一方で、状態のよい患者だけが手術を受けることが可能と考えられ、この調査はバイアスがかかっているといえます。
このことから、外科手術の治療効果が全くなかった場合でも、手術を受けた患者の方が生存率が高いという結果が得られることが予想されます。
バイアスは慎重かつ公平にサンプルを選んだ場合にも起きるかもしれません。
例えば、アンケート調査を行う場合、その聞き方によってバイアスがかかる可能性があります。
わかりやすい例は、「知事候補のブラウン氏が、家庭の外で4人の子供をもうけ、贈賄罪を逃れるために弁護士を雇っていたとしたら、あなたの中で彼に投票する可能性は上がりますか?下がりますか?」など、偽りの世論調査を行う政治運動でいうところの「押し付け世論調査」です。
私が最も気に入っている偏った質問形式は、「不貞行為の率はこれまで考えられていたよりもずっと低く、15〜20%ではなく2〜3%だった」と報告した調査にあります。
この調査を実施した人々は、夫婦を横に座らせてインタビューをしていたのです。
ほぼ全て人が過ちだと感じ隠そうとする個人的な質問に、正直な回答を促すような状況ではありません。
他にも多くの種類のバイアスが存在し、それぞれに名前が付いています(以前同僚と検証バイアスverification biasとして知られているものについて調べました)。
しかし、統計家たちもどれをどのようによぶか一致していないので(学会で私たちの研究を説明した際、「あなたは検出バイアスの話をしているのですね」といわれました)、その全てを理解し、覚えておく必要はおそらくありません。
覚えておくべきことは、歪曲性が世の中の一部として存在するということです(スペインの選手はゴールを歪曲させました)。
バイアスは世の中を研究しようとする際にときどき取り入れてしまう可能性がありますが、審判のように、避けなければいけないものなのです。
@歪曲性はデータの分布を説明します
A平均値の上よりも下に観測値が多い場合、またはその逆である場合に、データは歪曲しているといえます
B平均値の上または下に観測値の割合が多いほど、データはより歪曲しているといえます
Cバイアスは、研究のデザインや実施、解析の問題を説明します
D研究方法または統計解析から、高すぎたり低すぎたりする予測が得られた場合、その調査はバイアスがかかっているといえます
E私の喜びは続かず、イングランドはその次の負けられない試合で負けました
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
データの歪曲性とバイアスについて解説してください。
#制約条件:
ですます調の平易な日本語で
文字数は1000字程度
情報ソースも記述してください。
ChatGPTの回答
データの歪曲性とバイアスについて
データサイエンスにおいて、データの歪曲性とバイアスは重要な概念です。これらは、データの信頼性や解釈に影響を与える要因です。
データの歪曲性は、データがある方向に偏っていることを指します。これは、データが正確な状況や現象を反映していない可能性があることを示します。例えば、アンケート調査で特定の人口グループが十分に代表されていない場合、その結果は歪んでいる可能性があります。また、センサーデータの誤差や不良品のサンプリングによっても歪みが生じることがあります。データの歪みを修正するために、データ収集の方法やサンプリング手法を改善することが重要です。
バイアスは、データ収集や解析の過程で生じる偏見や歪みを指します。これは、誤った結果や誤った判断を導く可能性があります。例えば、研究者の主観的な意見や予想がデータ収集や解析に影響を与える場合、バイアスが発生します。また、サンプリング方法やデータの選択によってもバイアスが生じることがあります。バイアスを減らすためには、客観的なデータ収集方法を採用し、解析プロセスでの主観的な要素を最小限に抑えることが重要です。
データの歪曲性とバイアスは、データサイエンスや統計解析において注意を払う必要がある重要な概念です。これらの影響を最小限に抑えることで、より信頼性の高いデータ分析や意思決定が可能となります。
情報ソース:
Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking by Foster Provost and Tom Fawcett
Introduction to Data Mining by Pang-Ning Tan, Michael Steinbach, and Vipin Kumar
関連リンク