統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】

統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】

統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】
統計の専門家も基準率の誤りに陥ることがある。ジャーナリストのダレル・ハフは1954年の著書『統計でウソをつく法』で有名になり、その名声を背景にたばこ会社から依頼され、1964年の米国公衆衛生局長官の「喫煙と健康」に反論する本を執筆した。この本では統計的誤りを指摘し、報告にある「1.20という死亡率の比」の解釈について批判した。ハフは過度な精確さに疑問を呈し、統計的に有意であることは精確な数値を保証しないと述べた。しかし、ハフはp値を誤解し、偶然性をオッズで表現する誤りを犯した。シカゴ大学の統計学者K・A・ブラウンリーもこの基準率の誤りに気づかず、ただオッズの数値修正を指摘するに留まった。ハフの批判は、統計の過度な精密さが本質的に曖昧であることを示唆するが、彼自身も誤解から逃れられなかった。

統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】

 

 

喫煙統計でウソをつく法

 

著名な統計の専門家であっても基準率の誤りにはまることがある。

 

目を引く事例として,ジャーナリストのダレル・ハフが関わったものがある。

 

ハフは1954年に出た『統計でウソをつく法』という有名な本の著者だ。

 

『統計でウソをつく法』という本は学術的な意味での統計に焦点を当てた本ではない。

 

むしろ「グラフや誤解を招きやすい数字でウソをつく法」という題名の方がふさわしかったかもしれない。

 

それにもかかわらず,この本は大学の授業で広く使われていたし,マーケティング担当者や政治家の裏をかきたがっている大衆にも読まれていた。

 

このことにより,ハフは世間が認めた統計の専門家ということになっていた。

 

そのため, 1964年に米国公衆衛生局長官が出した「喫煙と健康」という有名な報告に,喫煙が肺ガンの原因になるという記述が載ったとき,たばこ会社はハフに公開の反論を行うよう依頼した。

 

たばこ産業は,ハフの名声を利用しようとして,ハフに議会での証言を依頼するとともに,本の執筆も依頼した。

 

この本は,公衆衛生局長官の報告に存在するとされた多くの統計的・論理的誤りを論じるもので,「喫煙統計でウソをつく法」という仮題が与えられた。

 

ハフは原稿を書き終えると,たばこ産業から9000ドル(2014年のドルの価値で言えばおよそ6万ドル)を受け取った。

 

そして,この原稿はシカゴ大学の統計学者で,たばこ産業のコンサルタントとしてお金をもらっていたK・A・ブラウンリーに好意的に評価された。

 

この原稿が出版されることはなかったが,もし出版されていれば,ハフの分かりやすくて気楽に読めるスタイルが大衆に強い印象をあたえ,給湯室での議論に話のタネを提供しただろう。

 

その第7章で,ハフは,自身が「過度に精確な数字」と呼んだものについて議論している。

 

こうした数字は,信頼区間や他の不確かさの目安が付されることなく示されていた。

 

例えば,公衆衛生局長官の報告では「1.20という死亡率の比」について述べられていて,それが「5%の水準で統計的に有意」だとされている。

 

おそらくこの1.20という比と, 1.0という比の間にp<0.05で有意差があるということを意味しているのだろう。

 

ハフは結果を死亡率の比で表すことは完全に適切なことだと同意したのだが,以下のようにも述べている。

 

これには適切でない結果が含まれている。

 

ここからは,2種類のグループの実際の死亡率の比が小数点以下まで分かっているように見える。

 

解釈する際に,かなり精確な数値に見えるものが近似値に過ぎないという知識を持ち出す必要がある。

 

そして,添付されている有意性に関するくだり(「5%の水準」)からは,実際に分かることが2番目のグループが1番目のグループより死亡率が本当に高いことのオッズが19対1であることしかないということが知れる。

 

一方のグループともう一方のグループを比べたとき,実際の増加量は,提示された20%よりずっと少ないかもしれないし,多いかもしれない。

 

 

この引用の前半については,ハフをほめたいと思う。

 

統計的に有意であることは,小数第2位まで精確な数値が分かることは意味しないにの数値を表したかったら,信頼区間の方がずっと適切だっただろう。

 

だが,その次に,ハフは有意水準から,死亡率に実際に差がないのは19対1のオッズだと主張している。

 

つまり,ハフはp値を結果が偶然である確率であると解釈しているのだ。

 

ハフですら基準率の誤りから逃れられなかったのだ!

 

「2番目のグループが1番目のグループより死亡率が本当に高い」オッズは分からない。

 

分かるのは,「真の死亡率の比が1だった場合,20回実験すれば死亡率の比が1.20より大きい結果が得られるのが1回しかない」ということだけだ。

 

ハフが過度に精確な数値であると文句を言っていたのは,実際には不可能な精確さだったのだ。

 

K・A・ブラウンリーが,このコメント,およびハフが原稿の至るところで述べた同様の見解を読んで文句を言わなかったことは注目に値する。

 

ブラウンリーは,かわりに,ハフが本来オッズを20対1とすべきところを誤って19対1としているという旨の指摘を1か所でしている。

 

一層根本的な問題である基準率の誤りが潜んでいることにブラウンリーが気づいたようには見えない。

 

 

ダレル・ハフは1954年に出版された『統計でウソをつく法』の著者で、この本は統計の専門的な教科書ではなく、グラフや統計データをどのように操作して誤解を招くかというテーマに焦点を当てた一冊であった。この本は学術的な統計学を解説するものではなかったものの、大学の授業で広く使用され、多くの学生や社会人が統計の裏に潜むトリックや誤解を理解するための教材として利用した。また、マーケティング担当者や政治家といった職業の人々にも読まれ、彼らの手法を批判的に見ようとする一般大衆にも広く受け入れられていた。結果として、ハフは世間から統計の専門家としての認知を得るに至り、その名声は広範囲に及んだ。1964年、米国公衆衛生局長官が「喫煙と健康」という報告を発表し、この報告書には喫煙が肺がんの原因になると明言されていた。これに対してたばこ産業は反論の必要性を感じ、当時の有名な統計専門家と認識されていたハフにアプローチを行った。彼らはハフに議会での証言を依頼し、さらには反論となる書籍の執筆も依頼した。このようにしてハフは『喫煙統計でウソをつく法』という仮題の本を執筆することになった。この本の目的は、当時の公衆衛生局長官の報告に存在するとされる統計的・論理的誤りを論じるものであり、ハフはこのプロジェクトの報酬として9000ドルを受け取った。2014年の価値に換算すると、これは約6万ドルに相当する額である。この原稿は完成し、統計学者であり、たばこ産業のコンサルタントを務めていたK・A・ブラウンリーによって評価された。ブラウンリーはこの原稿に肯定的な意見を述べていたものの、出版されることはなかった。しかし、もしこの原稿が公に発表されていれば、ハフの軽快な筆致とわかりやすい説明は、広く読まれ、一般大衆の関心を集めることは間違いなかっただろう。特に給湯室での雑談など、日常会話の中で話題にのぼることになっただろう。ハフの原稿の中で特に注目されるのは第7章である。この章で彼は「過度に精確な数字」についての議論を展開している。ここで彼が言及しているのは、信頼区間や他の不確かさの指標が付されることなく提示された数字のことである。例えば、公衆衛生局長官の報告では、「1.20という死亡率の比」が述べられており、これが「5%の水準で統計的に有意」であるとされている。これはおそらく、死亡率の比が1.0であると仮定した場合に、統計的に有意差がp<0.05で見られるということを示していた。ハフは結果を死亡率の比で表すこと自体は適切であると認めつつも、その精確さが過度に強調されていると批判した。彼は「かなり精確な数値に見えるものが実際には近似値に過ぎない」という事実を強調し、こうした状況を認識することが重要であると指摘している。さらに、統計の有意性に関する説明においては、示される数値が「5%の水準」であることの意味を誤解しやすいと述べている。具体的には、有意性の水準が示すのは「2番目のグループの死亡率が1番目のグループより本当に高い」という証明ではなく、「真の死亡率の比が1であるとした場合、20回実験を行えば、そのうち19回は1.20を超えない結果が得られる」という程度のものである。ハフは統計の結果を解釈する際に、このような注意が欠かせないと述べたが、同時に自らも基準率の誤りに陥っていたことが示唆される。彼が「19対1のオッズ」という表現を用いた際、これはp値を偶然性の確率と誤解したものであり、統計の基本的な誤りを含んでいた。これについてブラウンリーはハフの記述を評価する中で、一部の数値に関する誤りを指摘したが、ハフの基準率の誤解には気づかなかったことは興味深い事実である。ブラウンリーは特に、「オッズが20対1とすべきところを19対1としている」と指摘したのみで、その背後に潜む基準率の問題については触れなかったのである。このようにして、統計的な知見を持つ専門家でさえ、基準率の誤りやp値の解釈においてミスを犯すことがあることが明らかとなった。ハフは自著の中で、過度に精確な数値の提示に対して警鐘を鳴らし、一般の読者に対して「見かけ上は精確でも、その数値には不確かさが伴うことを意識する必要がある」と述べた。しかし彼の分析の中には、自身が批判した過度な精確さや誤解を含むものであり、これは統計の解釈における難しさを示している。p値の解釈に関しても、「結果が偶然である確率」とする誤解は、現代の統計教育でもしばしば見られる誤りであり、この誤解がハフにも存在していたことがわかる。実際のところ、p値は観察されたデータが帰無仮説の下で得られる確率であり、それ自体が結果の偶然性や真実の確率を示すものではない。ハフの誤りは、統計の知見を有する者であっても解釈を誤ることがあることを浮き彫りにし、統計的有意性の理解とその解釈の正確さがいかに重要かを示している。統計学者のK・A・ブラウンリーがこの点について特にコメントを残していなかったことから、たとえ統計の専門家であっても、統計的解釈の正確さを保証することは難しいことが明らかである。結果として、ハフの指摘や彼の批判的視点は有意義ではあったが、その中にも誤解が潜んでいたのである。これは「統計でウソをつく法」が持つ皮肉な面でもあり、統計的手法の解釈や数値の精確性において誤解が生じやすいことを示唆している。

 

統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】

統計の基準率誤りとハフのパラドックス【ChatGPT統計解析】