Python・R・エクセルによるデータサイエンス | 統計解析講義

統計量を正しく理解しているか【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計量を正しく理解しているか【統計解析講義基礎】

統計量を正しく理解しているか【統計解析講義基礎】


統計量を正しく理解しているか【統計解析講義基礎】

 

統計量とは、調査したデータに対して何かの計算をして、データを要約したものです。

 

私たちに一番なじみのある統計量といえば、平均でしょう。

 

平均の計算のしかたはよく知っていると思いますが、「なじみがある」ことを過信すると誤解を生みます。

 

次のような表現について、どのような問題があるかを考えてみましょう。

 

@気象用語でいう「雲量」とは、快晴を0、本曇りを10として、空のうち雲の占める割合を表現する。平均は5程度です。したがって、1年間のうち、多少雲がある曇りの日が一番多い。

 

A人生50年という言葉があったように、100年前の日本人の平均寿命は50歳程度であった。当時の女性は5、6人の子供を生むことは当たり前であったので、子育てが終った後の人生は数年しかなかった。

 

B500系のぞみ号は、1997年の運行開始当時、最高速度は300km/hの世界一速い列車であった。

 

統計量を正しく理解しているか

 

@データが「平均値をとる可能性が一番高い」とは限りません。どの値をとる可能性がどのくらいあるかを示す「分布」の違いで、いろいろなパターンがあります。最大値と最小値が一番とる可能性が高く、平均値をとる可能性が一番低い、という分布も考えられます。雲量はこのような分布をとる例です。

 

A平均寿命とは、0歳児の平均余命です。昔は乳児死亡率が高かったので、その影響で0歳児の平均余命が短くなっていました。決して「平均寿命が50歳である」からといって、「40歳の人の平均余命が10年である」わけではありません。

 

B最高速度が世界一速い列車も、世界一速い列車のひとつですが、実用的にはある地点からある地点へ移動するときの速度が一番速い列車が世界一速い列車ではないでしょうか。なお、鉄道技術の世界では、営業列車の速度は「隣接停車駅間の平均速度」で評価するそうで、その意味で、500系のぞみ号の広島⇒小倉間が当時「世界一速い」列車だったそうです。

 

1936年の米国大統領選挙のときの有名な話です。

 

ある雑誌社は世論調査によって民主党/共和党のどちらの候補が当選するかを予想することにしました。

 

そこで、自社の雑誌購読者と電話所有者のなかから1000万人を無作為に抽出し、アンケートを行いました。

 

その結果、共和党の候補が当選すると予想しましたが、みごとに外れてしまいました。

 

さて、調査にどのような問題があったのでしょうか。

 

(解答)当時の米国では電話所有者は富裕層のみであったのので、電話所有者のみを対象に行うアンケートは偏ったサンプリングであると考えられる。

 

実際に、貧困層により人気のあった民主党のルーズベルトが大統領に当選することとなった。

セミナー詳細こちら                    解析ご相談こちら


 

統計量を正しく理解しているか【統計解析講義基礎】

統計量を正しく理解しているか【統計解析講義基礎】

統計量を正しく理解しているか【統計解析講義基礎】