データの真実を暴く！レンジと四分位数の科学【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

データの広がりを示す「レンジ（範囲）」は、データの最大値と最小値の差であり、データがどれだけ広がっているかを表します。しかし、レンジは両端の極端な値に大きく影響されるため、異常値があるとその表示が歪むことがあります。そこで、四分位数が用いられます。これはデータを四等分し、中央のデータを示す中央値（第2四分位数）やデータの分布の広がりを示す第1と第3四分位数を用いて、データのバラツキをより確実に評価します。累積度数分布を使えば、25%、50%、75%の点に垂線を下すことでこれらの四分位数を容易に求めることができます。四分位数を用いることで、レンジに比べて端の値の影響を受けにくく、データの中心と広がりを同時に把握することが可能です。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次データの真実を暴く！レンジと四分位数の科学【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

わかりやすいレンジ（範囲）

両端に左右されない四分位数

度数分布と四分位数

わかりやすいレンジ（範囲）

いくつかの個別データがあるとき、その値がどの程度バラついているかを示したいとします。

これにはいろいろの特性値が定義され用いられています。

では、そのものずばり、データの左右の広がりの幅（最大値－最小値）で表してはどうでしょうか。

この値はその意味通り、「レンジ（範囲）」と呼ばれています。

これが大きいほど、データは広くばらついているとみるのです。

この考え方はわかりやすくていいです。

しかし両端のデータだけで決定されるというところに不安があります。

もし、大部分の点がある範囲に集中していて、ただ１個だけが異常値として飛び離れていたらどうでしょう。

多数データの集中度合いは、まったく無視されてしまいます。

しかし、データ個数が少ないときは、どれが異常値でどれが正常値かわからないかもしれません。

分布の隙間部分のデータがたまたま欠落していて、右端のデータが孤立しただけかもしれません。

それにデータ個数が少なければ、異常値があらわれるおそれも少ないといえます。

そのためか、レンジはデータ個数がせいぜい10個くらいまでのときに用いられるようです。

両端に左右されない四分位数

次に、レンジのように両端の値に依存することのない方法が考え出されました。

四分位数がそれです。これを用いてバラツキの度合いを表す方法は以下です。

①まず、データを大きさの順に並べます。

②次に、３つの境目のデータを選んで、全体が４分の１ずつの個数に区切られるようにします。

③その境目のデータが四分位数です。これは３個あるので、小さいほうから、第１、第２、第３四分位数と呼びます。

そして、第１、第３の四分位数の間隔（データの差）でバラツキの度合いを示すことにします。

真ん中の境、すなわち第２四分位数は、中央値に他なりません。

データ個数がちょうど「４の倍数＋３」とならないと、②の手順のところがうまくいきません。

その場合は工夫がいりますが、データ個数が多ければ多少のズレはあまり問題にしなくて構いません。

度数分布と四分位数

度数分布から四分位数を求めることは難しいですが、累積度数分布であれば、わりと簡単に四分位数が得られます。

累積度数分布のタテ目盛の25%、50%、75%の点から垂線を下せば、それぞれの四分位数を求めることができます。

四分位数にバラツキを示す特性値の役割を持たせると、端のほうに異常値があってもそれには影響されません。

この方法では、度数分布の中心の位置をあらわす中央値と、広がりを表す特性値の両方が、同一計算内で一挙に得られます。

これもメリットの一つです。

関連リンク

マルチメソッド評価の例

統計学において注意すべき交絡

ヒトと動物を対象とする研究

郵送調査の統計学

最尤推定法

薬剤開発の競争

２つのクラウンデッド･セオリーの例

動物実験におけるサンプルサイズの統計学

統計的仮説検定は一種の背理法

標本抽出のデザイン

前へ

1

2

3

4

5

6

次へ

【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
【医療統計解析】

【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

Google Gemini・Python・エクセルを使った講義で最速マスター

データの真実を暴く！レンジと四分位数の科学【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

データの真実を暴く！レンジと四分位数の科学【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

わかりやすいレンジ（範囲）

両端に左右されない四分位数

度数分布と四分位数

サブメニュー

最新記事