カテゴリデータ解析:ファイ係数とクラメールのVで関連性を探る【ChatGPT統計解析】
カテゴリデータの相関統計量の一つであるファイ係数(φ)は、二値変数間の関連性を測定する尺度です。ピアソンの相関係数と異なり、カテゴリデータや順序尺度データの関連を測る際に用いられます。ファイ係数は、2×2のクロス集計表に基づいて計算され、カイ二乗統計量を使って求めることができます。ファイ係数の値は、関連の強さを示しますが、因果関係を証明するものではありません。また、2×2より大きい表では、クラメールのVが用いられ、ファイと似た手法で計算されます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
カテゴリデータの相関統計量ファイ
2変数の関連を測る最も一般的な尺度であるピアソンの相関係数には、少なくとも間隔レベルで測定した変数が必要である。
しかし、カテゴリデータや順序尺度データの関連に関する複数の尺度が開発されており、ピアソンの相関係数と同様に解釈する。
多くの場合、このような尺度は統計ソフトウェアパッケージやオンライン電卓を使って求めるが、手動で計算することもできる。
ピアソンの相関係数と同様に、相関統計量は関連だけの尺度であり、因果関係に関する見解は相関係数だけでは立証できない。
このような尺度が大量にあり、その一部は複数の名前で知られている。
ここでは最も一般的な尺度のいくつかを説明する。
新しい統計ソフトウェアパッケージを使っている場合には、そのパッケージでサポートされている尺度を確認し、多くの相関統計量があるのでデータに適した尺度を調査するのがよい。
二値変数関連度尺度ファイ
ファイ(φ)は、2つの二値変数(2カテゴリ変数。変数は2つの値のどちらかだけを取れる)の関連度尺度である。
ファイは2×2の表に対して計算する。
クラメールのVは、2×2より大きい表に対するファイに似ている。
ファイを求める式を以下に示す。
ファイ統計量の式
喫煙と肺癌のデータに対するファイは、以下式に示すように計算する。
ファイ統計量の計算
ファイは、以下式に示すようにカイ2乗統計量をnで割り、その結果の平方根を取ることでも計算できる。
ファイ統計量の別の式
なお、最初の計算方法では結果は正と負のどちらにもなり得るが、2つ目の方法ではカイ2乗統計量が常に正なので正にしかなり得ない。
2つ目の式を使って求めたカイ2乗統計量を使ったファイの値は、最初の式を使って求めた値の絶対値と考えられる。
これは以下表のデータを考えると明確になる。
ファイの例
最初の方法でファイを計算すると- 0.33となり、2つ目の方法では0.33となる。
これは統計コンピュータパッケージやオンライン電卓を使うか、手動で計算を実行すれば確認できる。
もちろん、2つの列の順序を変えたら、どちらの方法を使っても正の結果が得られる。
列に自然順序がなければ(例えば、色などの順序付けのないカテゴリを表す場合)、関連の方向は気にせずに、絶対値だけを求めたい。
別の例としては、例えば列が疾病の有無を表す場合がある。
後者の場合には、表内のデータの並べ方に注意し、誤解を招く恐れのある結果を生み出さないようにする必要がある。
ファイの解釈は、ピアソンの相関係数の解釈よりも複雑である。
ファイの範囲はデータの周辺分布に左右されるからである。
両方の変数が50-50に分かれていれば(一方が半分で他方が半分)、ファイの範囲は最初の方法を使うと(−1,+1)、2つ目の方法を使うと(0,1)になる。
変数が別の分布の場合には、ファイの取り得る範囲は小さくなる。
この制約を念頭に置くと、ファイの解釈はピアソンの相関係数の解釈と似ているので、値-0.33は中程度の負の関係を示す(「中程度の関係」の絶対的定義はなく、この結果は研究分野によって大きいとみなされる場合もあれば小さいとみなされる場合もあることも覚えておいてほしい)。
クラメールのVは、2×2より大きい表でのファイの拡張である。
クラメールのVの式は、以下の式に示すようにファイの計算の2つ目の方法に似ている。
クラメールのVの式
分母は、z(標本サイズ)に(r-1)と(c-1)の最小値(つまり、行数引く1と列数引く1の2つの値の最小値)を掛けたものである。
4×3の表では、この値は2になる(つまり、3−1)。
2×2の表では、クラメールのVの式はファイの2つ目の式と同じである。
nが200の3×4の表のカイ2乗値が16.70であるとする。
このデータのクラメールのVを以下式に示す。
クラメールのVの計算
関連リンク