グッドマン=クラスカルのガンマ解説|順位相関の核心【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
グッドマン=クラスカルのガンマ(Goodman and Kruskal’s gamma, γ)は、順序尺度データに適用できる順位相関係数の一種で、−1から1の値をとる指標です。観測された2つの変量について、任意のペアを取り出したときに、両者の大小関係が同じ向き(順順位)である組と異なる向き(逆順位)である組およびガンマを?定義します。正の値は順順位の一致が多いこと、負の値は逆順位が多いことを示し、0は無相関を意味します。なお、同順位が存在しない場合にはケンドールの順位相関係数のτと一致します。さらに、行列いずれにも順序があるクロス集計表に適用でき、特に2×2表の場合にはユールのQと呼ばれることがあります。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
グッドマン=クラスカルのガンマ(Goodman and Kruskal’s gamma, γ)は、社会科学や行動科学、医学統計や教育学の分野においてしばしば用いられる統計的指標であり、順序尺度データ間の関連性を測定するための順位相関係数の一種である。順位相関という考え方は、データが必ずしも間隔尺度や比尺度のように正確な距離を持つ数値でなくとも、順序が意味を持つ場合に適用可能であり、例えばアンケート調査における「非常に満足」「満足」「どちらともいえない」「不満」「非常に不満」といった評価尺度や、病気の重症度を段階的に分類したデータなどが典型例である。ガンマの特徴は、2つの変数の間にどの程度一貫した方向性のある関係が存在するかを、順位の一致度に基づいて数量化する点にある。具体的には、あるデータ集合から任意の2つの観測単位を取り出し、それぞれの変数について大小関係を比較する。もし一方の変数における大小関係が、他方の変数における大小関係と同じ方向を示すならばそれは順順位(concordant pair)と呼ばれ、逆に一方が大きいときにもう一方が小さいといった逆方向の関係を示す場合は逆順位(discordant pair)と呼ばれる。ガンマはこの順順位の数と逆順位の数を用いて定義される。この定義から明らかなように、ガンマの値は−1から1の範囲に収まり、1に近ければ近いほど変数間の順位が強く一致していることを意味し、−1に近ければ近いほど一方の変数が大きくなるとき他方は小さくなるといった逆方向の関係が強いことを意味し、0付近であれば順位の関係に一貫性がなく相関がほとんどないことを意味する。この性質は、順位相関係数としてよく知られるスピアマンの順位相関係数やケンドールの順位相関係数と類似しているが、ガンマは特に「順順位と逆順位の比率」に焦点を当て、同順位(ties)の存在を無視する点が特徴的である。つまり、同順位が多く含まれるデータに対しては過大に関連が強く見える可能性がある一方、同順位が少ない場合にはケンドールのτと一致する。ガンマの実用上の利点は、順序カテゴリーが存在するクロス集計表においても容易に適用できることであり、例えば教育学における成績と学習態度の関係、社会学における社会階層と政治的態度の関係、医学における症状の重症度と生活の質の関係などを分析する際に用いられる。クロス集計表での定義は、行と列のカテゴリーがそれぞれ順序を持つ場合に可能であり、表中のセル頻度を基に順順位と逆順位の数を計算してガンマを導出する。特に2×2のクロス集計表の場合には、そのガンマは「ユールのQ(Yule’s Q)」と呼ばれることもあり、これはオッズ比を変形した形で表されるため、二値変数間の関連を直感的に把握する際に有用である。また、ガンマは解釈のしやすさにおいても優れている。γ=?0.5であれば、逆順位が順順位よりも多く、中程度の負の関連が存在すると考えられる。さらに、ガンマは推定統計学的にも活用され、標本から得られたガンマに対して標準誤差や信頼区間を計算することにより、母集団における順位相関の存在を検証することができる。このため、単なる記述統計的な関連指標としてだけでなく、仮説検定や推定の文脈でも利用されることが多い。一方で、ガンマにはいくつかの留意点もある。最大の特徴であり同時に限界ともなるのが「同順位を考慮しない」という点である。実際のデータでは、同じ値や同じカテゴリーが多く出現することは少なくなく、その場合ガンマは順位相関を過大評価する傾向がある。そのため、同順位を考慮したケンドールのτ-bやτ-c、あるいはスピアマンの順位相関係数を用いた方が適切な場合もある。研究者はデータの性質や研究目的に応じてこれらの指標を選択する必要がある。さらに、ガンマは線形関係を前提としないため、非線形だが単調な関係をも捉えることができる点で柔軟である。例えば、テストの点数と学習意欲の関係が必ずしも比例的ではなくても、点数が高い人はおおむね学習意欲も高いといった順序的傾向があればガンマは正の値を示す。この点は、ピアソンの積率相関係数のように線形関係を前提とする指標とは異なる大きな利点である。また、ガンマの考え方は拡張され、グッドマン=クラスカルのタウ(τ)といった別の関連指標とも密接に関係している。タウはクロス集計表における行と列の関連性を「予測誤差の減少量」という観点から定義するもので、行を従属変数、列を独立変数とみなし、新しい観測値の行の水準を予測した際に列の情報があることによって誤差がどれだけ減少するかを表す。タウは0から1の範囲をとり、1に近いほど予測精度が高いことを意味する。したがって、ガンマが順位の一致度というシンプルな観点から相関を評価するのに対し、タウは「予測可能性の向上」というより実践的な観点から関連の強さを示すといえる。このように、グッドマン=クラスカルのガンマは順位尺度データや順序付きクロス集計表を分析する上で極めて有用な統計量であり、その直感的な解釈のしやすさと計算の明快さによって広く応用されている。ただし、同順位が多いデータやカテゴリーが粗いデータに対しては他の指標と併用して慎重に解釈することが重要である。結局のところ、ガンマは単独で万能の相関指標ではなく、データの性質や研究目的を踏まえて適切に使い分けるべき指標の一つであるといえる。