Python・R・エクセルによるデータサイエンス | 統計解析講義

情報とデータと統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

情報とデータと統計学【統計解析講義基礎】

情報とデータと統計学【統計解析講義基礎】


情報とデータと統計学【統計解析講義基礎】

 

情報とはなにか、この言葉を定義することはさておいて、仮に情報を便宜的に、個々の対象者から得られるデータ形式のものに限定しましょう。

 

「ちょっと、耳よりな情報がありますよ」というときの、漫然とした形式の情報は、たとえ興味があっても扱わないこととします。

 

新聞を広げると、政治、国際、経済、社会面の情報記事が満載されていますが、これらもデータ形式でなければ同様に扱いません。

 

では、データ形式とはどんなものをいうのでしょうか。

 

大きくは、カテゴリーで表せるものと、数量で表せるものとがあります。

 

私たち個人についてのデータというとき、性別、未既婚、職業、学歴、血液型などはカテゴリーデータです。

 

性格のように十人十色、百人百色のものも、いくつかのタイプにくくることができれば、やはり前者に属することになります。

 

年齢、収入、世帯員数、身長、体重、体温などは後者の数量データです。

 

企業でいえば、従業員数、資本金、売上高、経常利益などがそうです。

 

ここでついでに「統計」という言葉の意味についても考えてみましょう。

 

手もとの国語辞典で「統計」の字句を引くと、「集団での個々の要素が持つ数値の分布や、その分布の特徴を示す数値の総体」とあります。

 

やはり辞書だけあって簡単明瞭、なるほどと感心させられます。

 

集団、個々の要素、数値の分布、分布の特徴、数値の総体、のいずれも大切な概念です。

 

多くの人は、統計は学校で習ったが忘れた、といって、パチンコや競馬の話、よくて天気予報の話などで統計を説明しようとします。

 

日常生活、至るところに統計ありなどどは、誰も言ってくれません。

 

すでに深層知識として身についているのなら、それはそれで大切にしたいものです。

 

カテゴリーデータの2つの形式

 

カテゴリーデータは、さらに「名義尺度」と「順序尺度」との2つに分けられます。

 

ここで尺度(スケール)という言葉を用いていますが、対象者なり対象物なりについて何かを測るための、物差しのことです。

 

名義尺度

 

名義尺度はカテゴリー間に順序がありません。どのカテゴリーが先でも後でもよいのです。

 

その例としては、今述べた性別、職業、血液型があげられます。

 

習慣的な順序、決まりはあるかもしれませんが、必然性はありません。

 

職業は、昔は士農工商と決まっていました。

 

いまどき、どんな職業、商売がいいのかわからない、中年すぎて小学校の同窓会に出てみると痛感させられます。

 

大学教授より町の商店主の方が威勢がよかったりするからです。

 

とにかく職業に順序などありようがありません。

 

血液型、これはA型、B型などとあって、見るからに順序がありそうですが、医学的なことは別として、単なる記号として受け取るべきでしょう。

 

順序尺度

 

カテゴリー間に順序のあるものです。

 

上の例では学歴があげられます。

 

中卒・高卒・大卒、または大卒・高卒・中卒と、どちらからでもいいですが、順序は定まっています。

 

高卒・中卒・大卒という変則的な順序は考えられません。

 

一応総中流というときの生活水準も、何段階に分けるかは別として、順序尺度による表現とみなされます。

 

話はやや脱線しますが、四季がめぐっての「寒い」「ほどよい」「暑い」という感じは順序尺度です。

 

しかし、太古、発生初期の人類は「暑い」と「寒い」とは、まったく関連のない別のものと感じていたはずです。

 

生理学的には、皮膚感覚の冷点と温点は別々に分布し、反応しているのだから、そのほうが自然です。

 

いわば名義尺度です。

 

その原初的感覚を、いつのまにか、人間の営みと知恵が、暑い寒いを四季の順序尺度にかえてしまったのです。

 

一方、数量データは「間隔尺度」と「比尺度」の2つの形式に分けられます。

 

間隔尺度

 

データの絶対的な大きさには意味がなくて、データ間の相対的な間隔、つまり差にのみ意味のある尺度です。

 

絶対的な大きさに意味がないというのは、測るときの物差しの基準(ゼロ)をどこにしてもいいということです。

 

したがって基準次第でデータが動きます。

 

温度は、ご存じのように摂氏で測ったり、華氏で測ったりできます。

 

摂氏の零度は華氏の32度です。

 

このように基準が一意的に定まらないから、温度は間隔尺度といえます。

 

比尺度

 

基準のゼロが決まっていて、物差しの目盛り幅が変わったとしても、ゼロはあくまでもゼロという尺度です。

 

先の例の、年齢、世帯員数、収入、身長、体重はすべて、比尺度です。

 

年齢のゼロは誕生の時点でそうです。

 

収入のゼロは、学生時代にアルバイトをしなければそうですし、万一失業すればたちまちそこに戻ります。

 

18世紀になって、熱による物体の膨張という現象が発見されて、寒暖計が発明されました。

 

そして、寒暖は間隔尺度の、摂氏華氏の温度として表されるようになりました。

 

尺度は進化したのです。

 

今世紀に入っての物理学の進歩は、熱の正体が物質を構成する分子の振動によるものであることを突き止めました。

 

それならば、分子の振動がゼロになった状態では、まぎれもなく温度そのものがゼロとなります。

 

あらゆる物質の分子振動が停止した死の世界、温度がいくら下がってもそこが行き止まりで、それより低くならないからです。

 

熱振動が停止した状態、これは摂氏マイナス273度という想像もつかない極低温の世界です。

 

絶対温度はこのようにして生まれました。

 

温度は原初的感覚から、ついに比尺度のレベルに進化したのです。

セミナー詳細こちら                    解析ご相談こちら


 

 

情報とデータと統計学【統計解析講義基礎】

情報とデータと統計学【統計解析講義基礎】

情報とデータと統計学【統計解析講義基礎】