クラス幅で変わる！度数分布の情報密度【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

度数分布においてクラス幅を狭くすると、元の個別データに近く、情報の損失が少なくなる。逆にクラス幅を広げると情報の損失が大きくなる。最小限にクラス幅を設定した度数分布は、情報の損失を最も抑えたデータ処理方法であり、数量データを効率的にまとめる手段となる。これにより、集団の量的構造を把握でき、統計データの背景理解が深まる。課題では、周囲の人々のコーヒー飲用日数と杯数を調査し、度数分布を作成してみることが推奨される。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次クラス幅で変わる！度数分布の情報密度【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

年齢の合計がもつ情報

数量データの度数分布におけるクラス幅と情報の損失

課題

年齢の合計がもつ情報

ここに、かなり年齢の開きのありそうな２人の女性がいます。

開きのありそうな、といったのは、見ただけでそうとわかるからです。

個々に女性に年齢を聞くのは失礼にあたるので、二人の合計の年齢を聞いてみました。

彼女たちは、いちおう答えてくれました。

しかし、その合計年齢のみから個人別の正確な年齢は、どんなことをしても求められません。

ただし合計がわかっているから、情報はまったくのゼロではありませえん。

だとしたらそこから、なんとか各人のおおよその年齢が推測できないでしょうか。

２人が若い女性と高年の女性のケースでは無理でしょう。

もし、見たところ二人の年齢差があまり大きくないようであればどうでしょうか。

「どちらも××歳前後だな」とおおよその見当がつけられそうです。

となると年齢の開き具合で、年齢合計の情報価値が変わってくることになります。

データのような数字ではなく、言葉のもつ情報ということを考えてみると、多少は短く言い直ししても意味が通じるなら、情報としては目減りしないようです。

そこが数字にないメリットです。

古い話ですが、初期のころ南極観測隊の一隊員に電報が届きました。

文面は「あなた」だけです。

しかしそれを聞いた隊員たちのあいだからは期せずしてドッと歓声があがったといいます。

遠く離れた彼の妻は言いたいことがいっぱいあったでしょう。

「お元気ですか、あなたらしく頑張っていると思うわ。でもいろいろご不自由でしょう。わたしは大丈夫、しっかり留守を守っています。でも会いたいわ、あなたは？・・・・」

こんな万感胸に溢れる言葉の数々が「あなた」の一語に凝縮してこめられているのです。

もっとも夫婦だからお互い口数が少なくてすむかというと、ときどき言ったつもりが通じなかったり、通じたつもりが聞き違いだったりで、それが夫婦げんかの種になることがままあります。

こうなるとデータの持つ情報の目減りよりも厄介なようです。

数量データの度数分布におけるクラス幅と情報の損失

さて、対象世帯についてある商品の購入量がわかっていたとします。

この場合、対象者となった個々の世帯の購入量データが、得られた全情報ということになります。

500世帯ならば500個のデータリストが全情報です。

では、それらの購入量をそのまま全部足しあげた「購入量合計」という、ひとつのデータに含まれる情報はどうか。

これは前節で見たように、はじめの個別データの情報よりはるかに少ないです。

足しあげた値を個々の世帯の購入量に戻せ、といわれてもできない相談です。

コーヒーに入れた砂糖やミルクがもとに戻らないように、まぜあわせた情報はもとに返らないのです。

では、それらの個別データを一本に足しあげるのではなく、クラスごとにそのなかで各々足しあげたらどうでしょうか。

その操作によって得られた度数分布という統計データには、最初の全情報がそのまま保存されているでしょうか。

これは度数分布のデータを与えて、それをもとの個別データに戻せるか、という問題と同じことになります。

答えはイエスとはいえませんがノーでもありません。

クラスの幅に目をつぶれば、もとの個別データに戻せます。

たとえば、11-15個というクラスに入っている世帯については、真の購入量はその中のどれかであって、その幅からとびだした値ではないからです。

いま、もとの個別データは廃棄して度数分布のデータのみを保存するものとしましょう。

そう考えると度数分布のクラス幅を狭くとるほど、もとの個別データに近いところまで戻せるので、全情報をあまり減らさずに保存できるということになります。

反対に、クラス幅を広くとるほど情報は目減りするのです。

したがって、クラス幅を許す限り小さくした度数分布は、もとの情報をもっとも損失の少ない形で処理したものとなります。

つまり、度数分布をとるというデータ処理の仕方は、個別の数量データをもっとも効率よくまとめるのです。

なお、数量データの度数分布を知ることは、集団の「量的構造」の把握と呼ばれています。

はじめに量的構造の把握があって、それを背景とすることによって平均値その他の統計データが生きてくるのです。

では、以下の課題を実施してみてください。

課題

あなたのまわりの人たちに、１週間のコーヒー飲用日数を聞いて、その分布がどんな型になりそうか見当をつけましょう。ついでに飲用杯数も聞いて度数分布を作りましょう。

ただし度数分布図を描くとなると、少なくても何十人かのデータが必要となるので、聞くのは適当な人数にとどめて、あとは想像で補う程度で結構です。

関連リンク

公正の原則

科学と医学において話題になりやすい要素とは

統計学における回帰分析

測定尺度

質的交互作用が稀な場合

量的研究における標本抽出計画の実施

統計学における中心傾向の測度の決め方

共同研究

統計的決定木とランダムフォレスト

データ安全性モニタリング計画

前へ

1

2

3

4

5

6

次へ

【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
【医療統計解析】

【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

Google Gemini・Python・エクセルを使った講義で最速マスター

クラス幅で変わる！度数分布の情報密度【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

クラス幅で変わる！度数分布の情報密度【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

年齢の合計がもつ情報

数量データの度数分布におけるクラス幅と情報の損失

課題

サブメニュー

最新記事