Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学におけるデータの構造【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学におけるデータの構造【統計解析講義基礎】

統計学におけるデータの構造【統計解析講義基礎】


統計学におけるデータの構造【統計解析講義基礎】

 

現在、有能な統計ソフトウェアが普及し便利になった反面、データについての知識がなくても「解析」ができ、ある1つの答えが得られてしまいます。

 

しかしその答えが適切か否かはデータについての正しい統計手法の知識が必要です。

 

これらを知ることにより適切な統計手法を活用することができます。

 

データの測定

 

長さを測定する場合には定規やメジャーを、時間を測定するためには時計やストップウォッチを用いるように、測定する対象に合わせてさまざまな測定方法を用います。

 

調査や実験のように人の意思や行動を測る際には、男性/女性や、好ましい/やや好ましい/どちらともいえない/やや好ましくない/好ましくない など、質問項目で測定されます。

 

これらの質問項目には4つの尺度が定義されており、それぞれの尺度がもつ情報量は異なっているため、どの尺度で測られたデータなのかを踏まえて統計手法を選ぶ必要があります。

 

@名義尺度:性別(男性/女性)、出身地(東京都/大阪府など)、特徴や名前などを測る際の尺度です。

 

男性や女性など測定された観測値は名前などの意味以外に情報を持たず、観測値間には順序関係などの情報も持ちません。

 

A順序尺度:好みの傾向など、観測値間に名義尺度の情報以外に順序関係の情報をもつ尺度。

 

ただし観測値間の差には意味をもたず、四則演算は適しません。

 

B間隔尺度:西暦(2000年、2010年など)、時刻(12:10、12:20など)など、順序尺度の情報をもちながら、観測値間に差の大きさ情報をもつ尺度。

 

ただし原点のような起点となる点がないため、加法や減法は可能ですが、乗法や除法は適しません。

 

例えば、12:20と12:10は10分の差はありますが、2倍の時刻とはいいません。12:00は比率の起点という意味ではなく、単にある大きさの位置を表しているだけです。

 

C比尺度(比率尺度、比例尺度ともよびます):身長や体重、売り上げなど、間隔尺度の情報に加え、観測値間に比率の情報ももつ尺度です。

 

四則演算のすべてを適用可能です。

 

それぞれの尺度では情報の大小があり、比尺度が最も多くの情報をもつことに対して、次いで、間隔尺度、順序尺度と続き、名義尺度が最も情報をもちません。

 

多くの自然科学における測定では比尺度を仮定しており、それに合わせた統計手法が利用可能です。

 

社会科学における測定では比尺度で測定されていないデータも多く、それぞれの尺度に合わせた統計手法の適用が必要です。

 

データが比尺度で測れた変数であることを前提にしている統計手法において、比尺度よりも情報をもたない尺度のデータへの統計手法の適応は理論的には不適切です。

 

逆に名義尺度や順序尺度を前提にしている統計手法に、2つの尺度より情報をもつ間隔尺度や比尺度で測られたデータを用いることも可能ですが、情報の一部しか使っていないという点では不適切です。

 

データの構造

 

測定されたデータは大きく長方形データと正方形データに分けられます。

 

長方形データは調査票調査のデータにみられるような変数(測定項目や質問項目)×対象(回答者など)の形式をとります。

 

一般的に各列が変数を表し、各行が測定項目に対する観測値や各質問項目に対する各回答者の回答を表します。

 

ここで列の個数をm、行の個数をnで表すと長方形データはm×n行列で表すことができます。

 

正方形データは長方形データと異なり、列と行で表すものが同じデータです。

 

例えば、お互いの施設間の物理的距離を測定した場合、列も行も施設を表し、それぞれの交差する項目は該当する施設間の物理的距離を表します。

 

正方形データでは対象間の距離や類似性を表すデータもあり、多次元尺度構成法(MDS)やクラスター分析などの多変量解析でも利用されます。

 

この場合の正方形データのことを「距離行列」や「類似性データ」と呼ぶ場合もあります。

 

正方形データの場合、列と行が同じであるため、この個数をnで表すと正方形データはn×n行列で表現できます。

 

長方形データにおいてもm=nとなり得ますが、この場合は特例であり、正方形データは正方形データを適用できる統計手法を選ぶ必要があります。

 

なお正方形データでは、対象においてAからみたBへの距離とBからみたAへの距離が同じである対称データが多いですが、AからみたBへの距離とBからみたAへの距離が異なる場合があります。

 

この場合のデータを「非対称データ」といい、近年、研究者によって、非対称MDSや非対称クラスター分析など、適用可能な統計手法の開発が研究されています。

 

非対称データには、例えば各国間の輸出入のデータの場合や各対象間の電話を相手にかけた回数などが該当します。

 

また、データ構造には相と元を用いた表現も使われます。

 

上述した測定している対象(例えば回答者や設問など)が異なるひと組の対象を「相」とよび、それぞれの測定項目を「元」と表現します。

 

例えば正方形データの例では、「回答者×回答者」になっており、回答者のみを対象としているため単相といえます。

 

2つの回答者という測定項目のため、2つの元をもつデータといえ、総じて「単相2元データ」とよびます。

 

このようにM個の相とN個の元をもつデータをM相N元データ(M≦N)とよび、これらのデータに適応させた統計手法も近年、提案されています。

セミナー詳細こちら                    解析ご相談こちら


 

統計学におけるデータの構造【統計解析講義基礎】

統計学におけるデータの構造【統計解析講義基礎】

統計学におけるデータの構造【統計解析講義基礎】