統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】

統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】

統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】
要約統計量の理解とその誤解、偏ったサンプリングについて解説します。平均値はよく知られた統計量ですが、その解釈には誤解があり、例えば雲量や平均寿命に関する一般的な考え方が正しくないことがあります。平均値がデータの分布を正確に反映しているとは限らず、特に極端な値の影響を受けやすい。また、1936年の米国大統領選挙における調査は、電話所有者という富裕層に偏ったサンプリングにより、実際の選挙結果と異なる予想をしてしまった例として挙げられます。これらの事例から、統計量の正しい理解と注意深いサンプリングの重要性が示されます。


目次  統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】

 

要約統計量を正しく理解する

 

要約統計量とは、調査したデータに対して何かの計算をして、データを要約したものです。

 

私たちに一番なじみのある要約統計量といえば、平均値でしょう。

 

平均値の計算のしかたはよく知っていると思いますが、「なじみがある」ことを過信すると誤解を生みます

 

次のような表現について、どのような問題があるかを考えてみましょう。

 

@気象用語でいう「雲量」とは、快晴を0、本曇りを10として、空のうち雲の占める割合を表現する。平均は5程度です。したがって、1年間のうち、多少雲がある曇りの日が一番多い。

 

A人生50年という言葉があったように、100年前の日本人の平均寿命は50歳程度であった。当時の女性は5、6人の子供を生むことは当たり前であったので、子育てが終った後の人生は数年しかなかった。

 

B500系のぞみ号は、1997年の運行開始当時、最高速度は300km/hの世界一速い列車であった。

 

平均値に対する誤解

 

@データが「平均値をとる可能性が一番高い」とは限りません。どの値をとる可能性がどのくらいあるかを示す「分布」の違いで、いろいろなパターンがあります。最大値と最小値が一番とる可能性が高く、平均値をとる可能性が一番低い、という分布も考えられます。雲量はこのような分布をとる例です。

 

A平均寿命とは、0歳児の平均余命です。昔は乳児死亡率が高かったので、その影響で0歳児の平均余命が短くなっていました。決して「平均寿命が50歳である」からといって、「40歳の人の平均余命が10年である」わけではありません。

 

B最高速度が世界一速い列車も、世界一速い列車のひとつですが、実用的にはある地点からある地点へ移動するときの速度が一番速い列車が世界一速い列車ではないでしょうか。なお、鉄道技術の世界では、営業列車の速度は「隣接停車駅間の平均速度」で評価するそうで、その意味で、500系のぞみ号の広島⇒小倉間が当時「世界一速い」列車だったそうです。

 

 

偏ったサンプリング

 

1936年の米国大統領選挙のときの有名な話です。

 

ある雑誌社は世論調査によって民主党/共和党のどちらの候補が当選するかを予想することにしました。

 

そこで、自社の雑誌購読者と電話所有者のなかから1000万人を無作為抽出(ランダムサンプリング)し、アンケートを行いました。

 

その結果、共和党の候補が当選すると予想しましたが、みごとに外れてしまいました。

 

さて、調査にどのような問題があったのでしょうか。

 

(解答)当時の米国では電話所有者は富裕層のみであったのので、電話所有者のみを対象に行うアンケートは偏ったサンプリングであると考えられる。

 

実際に、貧困層により人気のあった民主党のルーズベルトが大統領に当選することとなった。

 

 

統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】

統計の落とし穴: 平均値の誤解とサンプリングの罠【ChatGPT統計解析】