Python・R・エクセルによるデータサイエンス | 統計解析講義

データのまとめ方の統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

データのまとめ方の統計学【統計解析講義基礎】

データのまとめ方の統計学【統計解析講義基礎】


データのまとめ方の統計学【統計解析講義基礎】

まとめ方には3通りあります

 

データをまとめるとは、データに含まれる情報を要約することをいいます。

 

ときおり「縮約」ともいわれます。

 

もっともデータは「まとめる」以外の意義のあるものもあります。

 

たとえば「人口動態統計」はその基礎である住民票や出生届、個人届を集計したものですが、それらは各個人情報として住民サービスに利用できさえすればよく、統計分析するために収集されたのではありません(これらを第二義統計といいます)。

 

データをまとめる場合、大まかに3通りの方法があります。

 

@表にすること 例:度数分布表、クロス集計表

 

A図にすること 例:ヒストグラム、散布図、時系列グラフ

 

B統計量の計算 例:平均、分散、標準偏差、相関係数、回帰方程式

 

ほとんどの場合、@、A、Bの方法は併用されます。

 

つまり、表にされ、図に表現され、重要な統計量が計算されたのち、総合されて文章化され、「○○データの分析」(たとえば)として報告、発表されます。

 

「表」は一目でわかる点(一覧性)ですぐれ、「図」は視覚に訴える点ですぐれています。「統計学」は正確な議論の展開に必要です。

 

ここで以外と見落とされるのは「文章化」です。

 

統計的分析のほかに論理的作文力、表現力も要求されるため「データをまとめる」ことは相当に知的な高度の作業となります。

 

そして、これが戦略的なプレゼンテーション能力、ディベート能力の重要要素となっているのが今日的状況です。

 

上の3つの方法の基礎はいうまでもなくデータで、「原データ」「生データ」といわれます。

 

原データから一足とびに結論を出すことはまずありません。

 

それは不可能であったり、また原データからプライバシー保護のために、そのままの形でアクセスすることは許可されなかったりすることが多いからです。

 

ほとんどの場合、表か図か統計量の形で、データを利用することになります。

 

いわば、これらは原データの縮図といえます。

 

このコンピューター時代に、表、図をイラストかアクセサリーのように、それにカラフルな美しい表現を与えたり、巧みなデザインを添えたりすることが行われますが、原データにはもともとない強い印象を見る者に与える行き過ぎた面もあります。

 

そのような場合、思わぬ誤解や反発を引き起こすでしょう。

 

「統計量」は重要

 

統計量を計算することは今日エクセルのような計算ソフトで容易になっています。

 

標準偏差や相関係数のような進んだ統計量は、今までにとらえることのできなかったデータのかくれた重要な情報を与えてくれます。

 

統計量の正しい理解と用い方さえわかれば、データのまとめ方は一段と近いものになり、統計分析の能力は飛躍的に向上します。

 

実際、統計分析の中心は、数多くのこれらの統計量の計算によって行われます。

 

例として、ある大学の統計学の学期試験のデータをとりあげます。

 

ここのどのような事実が読み込めるでしょうか。

 

表、図、統計量を用いてまとめてみましょう。

 

平均は54.14点で試験としては難しくもやさしくもないごく普通の難易度です。

 

ヒストグラムから、この成績分布は平均を中心としてほぼ左右対称です(さらにいえば、いわゆる「正規分布」の形をしています)。

 

標準偏差はほぼ20点です。

 

34〜74点が平均を中心とした標準偏差の1倍範囲です。14〜94点が2倍範囲です(なお、正規分布の理論によれば1倍範囲の確率は68%ですが、このデータでも65.5%程度でほぼ合っています)。

 

通常試験では、80点以上に優(またはA)が与えられますが、本試験では5.1%であり、しばしば設定されている「A3割」の基準からは相当きびしいといえます。

 

また及第点50点に達しない、いわゆる不可点が与えられたのは41.6%で、合格不合格という基準からも本試験はきびしいといえます。

セミナー詳細こちら                    解析ご相談こちら


 

データのまとめ方の統計学【統計解析講義基礎】

データのまとめ方の統計学【統計解析講義基礎】

データのまとめ方の統計学【統計解析講義基礎】