データの魔法: 要約の秘訣【ChatGPT統計解析】
データの要約は、中心や散らばりを示す指標によって効率的に行われる。中心を示す代表値には平均値、中央値、最頻値があり、これらはデータの分布の特徴を簡潔に表す。散らばりを示す指標には範囲、四分位範囲、分散、標準偏差があり、データのばらつき具合を定量的に捉える。データ分析ではこれらの指標を活用し、データセットの比較や全体の傾向理解を容易にする。また、データの歪度や尖度など他の要約値も分布の特性を詳細に説明するために用いられる。これにより、単純な代表値だけでなく、データ全体の理解を深めることができる。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
データを要約する数値指標
データ全体を眺めることはデータ全体の様子を知るために重要ですが、複数の分布を調べる場合などには、より比較しやすくするために分布の特徴と「要約する」ことが望ましいといえます。
一般的に知られている平均値など、1つの数値(指標)でデータを要約統計量に要約することによってデータ全体の把握や複数のデータの比較が容易となります。
データの中心と順位に対する指標
データを分析する際にデータの分布を知ることは重要です。
特にデータの中心の位置や集中度を考えることは複数のデータを比較する際にも有意義です。
データを1つの数値、すなわち要約統計量に要約してデータの中心の位置を表すことがあります。
この数値をデータの「代表値」といいます。
代表値でよく知られている数値には「平均値」(算術平均)があげられます。
平均値はデータのすべての観測値の合計の値を観測値の個数である標本サイズで割って求める数値です。
平均値はすべての観測値を「平らに均した値」であり、データの中心の位置を表し、実社会において広範囲に利用されています。
平均値は概念の理解のしやすさや計算の求めやすさから多くの報告書やメディアなどでもみられます。
しかし、平均値の定義上、使用には注意が必要です。
例えば、他の観測値に比べ大きき外れた値(外れ値といいます)がある場合、平均値はその値に引っ張られます。
具体的には所得のデータのように低・中所得者が多いなか、所得の平均値は少数の高所得者に引っ張られ、イメージよりもやや高めの代表値となります。
また計算上の数値のため、平均値に近い観測値がない場合もあります。
このように平均値ではデータの代表値と考えるには誤解を与える場合があるため、その他の意味での代表値を考える必要があります。
平均値以外の代表値としてよく知られている数値に「中央値」(メジアン)があります。
中央値はデータを小さい順(または大きい順)に並び替え、そのちょうど真ん中になる値です。
標本の大きさが奇数の場合は、真ん中となる1つの観測値が中央値となり、偶数の場合は、真ん中となる2つの観測値の相加平均を中央値とします。
中央値は順序情報によって求めるため、平均値とは異なり、外れ値の影響を受けにくい性質があります。
データを表(度数分布表)で集計することにより、データの分布をみることが可能です。
この場合、最も度数が多い階級をデータの代表と考えることができます。
このことから最も度数が多い階級の階級値を「最頻値」(モード)とよびます。
最頻値も代表値の1つです。
最頻値は度数分布表に対応するヒストグラムの山において、ちょうど山の頂点になる部分です。
最頻値は単に出現頻度の最も高い場合の観測値を意味することもあり、この場合は名義尺度においても最頻値を求めることができます。
実際の分析においては、同時に複数の代表値をみながら分析することが望ましいです。
分布が一方に偏る場合、3つの代表値は異なっています。
また正規分布とよばれる分布のように左右対称の山型の場合、この3つの代表値はほぼ近い数値になります。
データ分析を行う際には要約された数値のみに着目するのではなく、グラフも同時に併用しながら分析することが重要です。
またデータの全体における特徴的な位置を考えることも実社会で利用されています。
データの観測値の最小、最大の観測値を表す最小値や最大値以外にも、データ全体を100%として考え、特定の位置を考える「パーセンタイル」(パーセント点)などがあります。
これらは母子手帳における乳幼児の身長などの表現にも使われています。
パーセンタイルはデータ全体を百分割した値(百分位数)ですが、同様に十分割した「十分位数」、四分割した「四分位数」が用いられます。
また、それぞれの数値は小さい方から「第1四分位数」「第2四分位数」などとよばれます。
データの散らばりに対する指標
データの分布の中心を考えると同様にデータに含まれる観測値の散らばりを考えることも分布を考える際に重要です。
この散らばりの程度を要約した数値のことを「散布度」といいます。
よく知られている散布度にはデータのすべての観測値が含まれる区間の大きさを表す「範囲」(レンジ)や、中心を含むデータの半分(50%)を含む区間の大きさを表す「四分位範囲」などがあります。
定義から範囲は最大値から最小値を引いた値、四分位範囲は第3四分位数(75%点)から第1四分位数(25%点)を引いた値です。
なお、四分位範囲の半分の大きさの「四分位偏差」という指標もあります。
範囲や四分位範囲では区間の端の値のみ考慮し、各観測値の散らばりは考慮されません。
そこで、平均値に対する各観測値の散らばりを考慮し、その程度を測った「分散」「標準偏差」を利用します。
分散は平均値と観測値の差である偏差を考え、この偏差平方和を標本の大きさで割った数値です。
また標本調査のように母集団の推測を行う場合は、標本の大きさから1を引いた値で割る「不偏分散」が利用されます。
分散は偏差を平方するため、単位が元の観測値と異なります。
そこで、単位を元の観測値とそろえるために分散の平方根を求め、この数値を「標準偏差」とよびます。
また分散や標準偏差は平均値に対する差である偏差をもとに計算するため、平均値の大きさや単位によっても影響を受けるため誤解を招くことがあります。
そのために標準偏差の値を平均値で割り、平均に対する標準偏差の大きさを比率で求めた「変動係数」を使うこともあります。
データの要約値は上記以外にも分布のゆがみ具合を測る「歪度」や尖り具合を測る「尖度」などがあります。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
データの要約について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
データの要約とは、大量のデータから重要な情報を抜き出して、簡潔に表現することです。これにより、データの全体像を理解しやすくなります。
平均値:データの中心を表します。全データの合計をデータの個数で割ったものです。例えば、クラスのテストの平均点を出すときに使います。
中央値:データを小さい順に並べたとき、ちょうど真ん中にくる値です。外れ値(極端に高い値や低い値)の影響を受けにくいのが特徴です。
最頻値:最も多く出現するデータの値です。例えば、一番人気のある商品などを知るのに使います。
範囲(レンジ):データの最大値と最小値の差です。データのばらつきを見る一つの方法です。
標準偏差:データが平均値からどれだけ離れているかを表します。ばらつきの大きさを数値で示します。
これらの要約統計量を使って、データの特徴を簡単に把握することができます。データの全体像を理解するための第一歩として、データの要約は非常に有効です。
関連リンク