スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
順序変数の関連尺度には、スピアマンのロー、グッドマンクラスカルのガンマ、ケンドールのタウ、ソマーズのdが含まれます。スピアマンのローは、順位に基づく相関統計量で、例えば学習時間と試験結果の関係を測定します。ガンマは、2変数の合致対と不一致対の数を基にした尺度で、データの単調性を評価します。ケンドールのタウは、タウa、タウb、タウcの3種類があり、それぞれ合致対と不一致対を調整します。ソマーズのdは、ガンマの非対称版で、変数間の予測力を測定します。

スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


スピアマンのロー


順序尺度データ(順序付けられているが、値の間の距離が等しいとはみなせないデータ)に対する最も一般的な相関統計量は、スピアマンの順位係数(スピアマンのロー(ρ)やスピアマンのrとも呼ばれ、rsなとも表す)である。


スピアマンのローは、データ点の値ではなく順位(1番目、2番目、3冊目など)に基づいている。


学校のクラス順位は比尺度データの一例である。


GPA (Grade Point Average)が最も高い人が1番に順位付けされ、次に高い人が2番となっていくが、1番と2番の生徒の差が2番と3番の差と同じかどうかはわからない。


高校のGPAなどの比尺度で測定できるデータがあっても、さまざまなクラスや学校間での評点制度を比較するのは困難なので、大学入学や奨学金の判断にはクラス順位が使われることがある。


スピアマンのローを計算するには、各変数の値を個別に順位付けし、同じ値の順位は平均化する。


そして、値の対の順位の差をそれぞれ計算し、以下式に示す式を使ってスピアマンのローを計算する。


スピアマンのローの式


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


1週間の学習時間と最終試験の得点の関係を調べたいとする。


以下表に示すように両方の変数のデータを収集する(例を示す日的から必要となる手計算を最小限にしたデータ集合)。


1週間の学習時間と最終試験の得点


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


学習の多さが高得点に関係するように見えるが、その関係は完璧ではない(学生3は平均的な学習量だけで高得点を得ており、学生5は比較的少ない学習量で優れた得点を得ている)。


スピアマンのローを計算し、この関係をもっと正確に推定する。


順位の差を二乗するので、(ここで行ったように)試験の順位から勉強時間の順位を引くか逆の引き算をするかは重要ではない。


di2の合計は58なので、このデータでのスピアマンのローを以下式に示す。


スピアマンのローの計算


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


これは、データの第一印象での推測を裏付けている。


学習に費やした時間と試験の結果には強固ではあるが不完全な関係がある。


グッドマン・クラスカルのガンマ


グッドマン・クラスカルのガンマ(単にガンマと呼ぶことが多い)は、2変数の合致対と不一致対の数を基にした順序変数の関連尺度である。


これは変数が期待通りの順序の値を持つ頻度を示すので、単調性の尺度と呼ばれることもある。


データ集合内の2変数が正の関係を持ち、事例2の方が事例1よりも最初の変数に大きい値を持つ場合には、事例2の方が2つ目の変数でも大きい値を持つと予期するであろう。


これが合致対である。


事例2の方が2つ目の変数に小さい値を持つ場合には、不一致対となる。


手動でガンマを計算するには、まず2変数の度数分布を作成し、自然順序を維持する。


BMI (Body Mass Index、身長に対する体重の尺度)と血圧値に関連する仮想データ集合を考えてみよう。


ー般に高いBMIは高血圧に関連するが、すべての人に当てはまるわけではない。


肥満でも正常血圧の人もおり、正常体重でも高血圧の人もいる。


以下表に示すデータ集合の体重と血圧には強い関係があるだろうか。


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


ガンマを求める式では、以下表に示すセル指定を使う。


ガンマを計算するためのセル指定


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


まず、次のように合致対(P)と不一致対(Q)を求める


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


そして、以下式に示すようにガンマを計算する。


グッドマン・クラスカルのガンマの計算


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


ガンマの背後にある論法は明確である。


2変数に強い関係がある場合、合致対の割合が高くなるだろう。


したがって、ガンマは関係が弱い場合よりも大きな値となる。


ガンマではどちらの変数を予測因子とみなしどちらの変数を結果とみなすかは重要ではないので、対称尺度である。


ガンマの値はどちらの場合も同じになる。


ガンマはデータ内の同順位を補正しない。


ケンドールのタウ


ケンドール(Maurice Kendall)は、カンマの代わりとして3つの少し異なる種類の順序相関を開発した。


統計コンピュータパッケージはもっと複雑な式を使ってこれらの統計量を計算する場合もあるので、特定のプログラムが使う正確な式はソフトウェアマニュアルで確認する方がよい。


ケンドールのタウ統計はすべて、カンマと同様に対称尺度である


ケンドールのタウaは合致対と不一致対の数に基づいており、以下式に示すように対の総数(n=標本サイズ)に基づく尺度で割る。


ケンドールのタウaの式


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


ケンドールのタウbは、合致対と不一致対に基づいた類似の関連尺度であり、同順位の数を調整する


2変数をxとyとすると、タウbは(P-Q)をxで同順位ではない対の数(x0)とyで同順位ではない対の数(y0)の幾何平均で割る。


タウbは、正方表(行と列の数が同じ表)でのみ1.0または-1.0に近づく。


ケンドールのタウbの式を以下に示す。


ケンドールのタウbの式


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


この式では、x0=xで同順位ではない対の数、y0=yで同順位ではない対の数である。


ケンドールのタウcは非正方表に使い、以下式に示すように計算する。


ケンドールのタウcの式


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


この式では、mは行数か列数の小さい方の数であり、nは標本サイズである。


ソマーズのd


ソマーズのdはガンマの非対称版なので、統計量の計算はどちらの変数を予測因子とみなしどちらの変数を結果とみなすかによって変わる。


ソマーズのdは、予測変数の同順位の対の数で補正する点でもガンマと異なる。


XがYを予測するという仮説のもとで調査を行う場合、ソマーズのdはXの同順位の対の数で補正する。


YがXを予測するという仮説の場合には、Yの同順位の対の数で補正する。


タウbと同様に、ソマーズのdでは同順位の対を分母から削除する。


X0 = Xでの同順位ではない対の数、Y0=Yでの同順位ではない対の数という表記法を使うと、ソマーズのdは以下式に示すように求める。
ソマーズのdの式


スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


ソマーズのdの対称値は、この式で計算した2つの非対称値の平均を取れば求められる。



スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


セミナー詳細                    解析ご相談                    LINEでお友達

スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

スピアマンからガンマまで!順序変数の関連尺度徹底解説【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】