正規分布の魔法:データ解析の基本【ChatGPT統計解析】
正規分布は、平均値を中心に左右対称なグラフで、身長や体重などのデータの分布に近い形を示す。他の分布には二項分布(はい・いいえの回答数)、カイ二乗分布(期待値と観測値の食い違い)、ポアソン分布(少ない回数を数えるデータ)がある。統計分析では、正規分布を前提とした手法が多く利用され、中心極限定理によりデータの分布が正規分布に近づく。また、平均±1.96標準偏差の範囲は95%を、平均±1標準偏差の範囲は68%をカバーする。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
正規分布はデータ分布の基本
平均値を中心に左右対称になるグラフが正規分布のグラフです。
分布の形の中で、最も基本となるものが正規分布です。
正規分布はつりがねのような形をしており、平均値を中心として、左右対称になります。
身長や体重のデータを集めて描いた度数分布グラフは、正規分布に近い形になります。
分布の形はほかに、二項分布、カイ2乗分布、ポアソン分布などがあります。
二項分布は、例えば「はい」「いいえ」で回答するようなアンケートで、「はい」と答える人数の分布を表します。
カイ2乗分布は、確率的に期待される値と、実際に観測された値の、食い違いを表す分布です。
ポアソン分布は、サッカーの得点数やある区域の交通事故の数のような、少ない回数を数えるデータの分布を表します。
アナリティクスや統計的分析で利用される手法は、正規分布を前提としているものが多くあります。
それは、値が大きくなればさまざまな分布が正規分布に近づく(中心極限定理)という性質を利用しているためです。
また、正規分布はシグマ範囲を決めれば、そこに含まれるデータの割合は、平均±シグマの範囲で、必ず68%になります。
この68という数字は覚えておくと便利です。
ちなみに平均±1.96シグマの範囲は必ず95%になります。
この1.96という数字も覚えておくと便利です。
このことにより、平均値とシグマ、つまり標準偏差があれば、データの概要を把握することができます。
関連記事