Python・R・エクセルによるデータサイエンス | 統計解析講義

統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】

統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】

統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】

目次  統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】


パーセント値

 

平均が大きさを問題にするのに対し、パーセント値は大きさに関係なく順序が重要になります。

 

今、1, 2, 5, 7, 9 という数字の列があるとします。

 

中央値というのは順番に並べた真ん中の値です。この例では5が中央値です。

 

この5が仮に4だとしたら4が中央値になるし、6だとしたら6が中央値になります。もちろんこれは5の近傍の場合にあてはまることであり、10とかでは中央値になりません。

 

つまり、真ん中であることが重要であり、その大きさは5であろうが4であろうが6であろうが順番に影響を与えない範囲であれば問題にならないということです。

 

また、この例にように数が奇数の場合は、真ん中の中央値はわかりやすいですが、数が偶数の場合は真ん中に値がありません。

 

この場合は、真ん中の直前の値と直後の値の平均をとります。

 

1, 2, 5, 7, 8, 9 という列であれば、5と7の平均をとった6が中央値になります。

 

さて、1, 2, 5, 7, 9 という数字の列ですが、

 

@5を除いた数字の数は全部でいくつでしょう。1と2と7と9なので4個です。

 

A5より小さい数はいくつあるでしょう。1と2なので2個です。

 

B5より大きい数はいくつあるでしょう。7と9ですから2個です。

 

パーセント値とは、@自分を除くデータの全数に対する、A自分より小さいデータの数の割合パーセントです。

 

この例では、2/4×100=50%値 です。

 

つまり、中央値はイコール50%値となります。

 

さて、それでは 1, 2, 5, 7, 9 の2は何%値でしょう。

 

2を除く全体  1, 5, 7, 9の4個
2より小さい数  1だけなので1個

 

したがって、1/4=25%値 となります。
25%値のことを、四分割した最初のパーセント値ということで、第1四分位数ともいいます。

 

50%値すなわち中央値は、第2四分位数ともいいます。このように中央値には3通りも呼称があります。

 

さて、それでは 1, 2, 5, 7, 9 の7は何%値でしょう。

 

7を除く全体  1, 2, 5, 9の4個
7より小さい数  1, 2, 5の3個

 

したがって、3/4=75%値 となります。

 

75%値は、第3四分位数ともいいます。

 

箱ヒゲ図

 

箱ヒゲ図というのがあります。

 

記述統計学の手法の一つで、最小値、25%値、中央値、75%値、最大値を図で表現する手法です。

 

箱ヒゲ図の箱の両端は、25%値と75%値で、箱の中の線が中央値です。
箱ヒゲ図のヒゲの両端は、最小値と最大値です。

 

Excel関数のQUARTILEは便利

 

最小値、25%値、中央値、75%値、最大値を一発で計算してくれるExcel関数があります。これが、QUARTILE関数です。

 

1, 2, 5, 7, 9 を範囲指定して、

 

=QUARTILE(範囲、0) とすると、最小値の1が出力されます。

 

=QUARTILE(範囲、1) とすると、第1四分位数の2が出力されます。

 

=QUARTILE(範囲、2) とすると、第2四分位数の5が出力されます。

 

=QUARTILE(範囲、3) とすると、第3四分位数の7が出力されます。

 

=QUARTILE(範囲、4) とすると、最大値の9が出力されます。

 

これらの値をもとに箱ヒゲ図を作ることができます。

 

また、任意のパーセント値を知りたいときには、PERCENTILEという関数が便利です。

 

=PERCENTILE(範囲、0.85) とすると、85%値が出力されます。

セミナー詳細こちら                    解析ご相談こちら


 

 

統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】

統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】

統計解析で重要な順序統計量:パーセント値【統計解析講義基礎】