一般的な方法論的問題と仮定|【多変量解析・統計学・統計解析】
一般的な方法論的問題と仮定
ここまでは複雑で方法論的な検討事項や. MRCに関連する統計的な仮定についての議論は避けてきた。
しかし, MRCを適切に使用するには,これらの問題のいくつかについて理解する必要がある。
多重共線性,残差得点についての仮定,誤った定式化,測定誤差,カテゴリカル変数の扱いなどについて説明し,最も一般的に用いられるMRCの変数間の違いについて概説する。
多重共線性
多重共線性という用語は. MRC分析における予測変数どうしの相関について議論する際に用いられる。
しかし読者はこの単語が出てきたら困惑するかもしれない。
なぜならPedhazur (1982)が指摘したように,この用語には総合的に合意された定義がないからである。
ある人はこの単語を記述的な意味で扱う。
そのときこの用語は予測変数どうしが内的に相関している程度を示すという意味である。
またある人は,この用語をある限界値を超えたことを示すために,すなわち内的相関係数が高すぎるときに使う(たとえば. MRCは多重共線性があるときは使うべきではない,など)。
MRC分析の結果と解釈はいかなるレベルにおいても予測変数どうしの相関の影響を受けるので,もしそれらの相関が非常に高い場合でなくても,多重共線性の記述はなされるべきである。
多重共線性の影響について一般的な理解を提供するとともに. MRCを使った研究において問題になるかどうかを見きわめる手助けを提供しよう。
一般に,多重共線性が大きくなるにつれ. MRCにはより多くの,実用的な予測と理論的解釈だけでなく。技術的側面の問題が発生する(たとえば,数学的解と統計的推論)。
技術的側面に注目すれば。もしある予測変数が他の予測変数と完璧に相関していた場合(つまり,その予測変数が他の予測変数を完全に説明・予測できる場合). MRCは数学的に解を得られない。
さらに,多重共線性が大きくなるにつれ,偏回帰係数はより不安定になる。
したがって。これらの係数の標準誤差と信頼区間は大きくなり,それらが統計的に有意になる可能性は低下する。
こうした技術的問題について考えると、いずれの2つの予測変数も,完璧に相関していてはならないことは明らかだーこの条件は予測変数のすべての組み合わせについて相関関係を調べることで簡単に検出される。
しかし,どの予測変数も全体的に影響していない,あるいは他の予測変数のいかなる組み合わせによっても予測されない,ということも検証しなければならない。
この後者の要件は,とくに予測変数が多い場合には。容易には検出されない。
このような技術的問題によって、完成ではないにしても非常に高い相関関係が生じることがあるが,どれくらいの値になれば高すぎるのかという普遍的に認められたルールは存在しない。
それでも,ほとんどの研究者は予測変数どうしの相関係数>0.80になるような状態は非常に問題であることに同意するだろう。
この大きさの相関は2つの変数がほぽ同じ構成概念を測定し,1つだけでも,あるいは2つの組み合わせとして使われることを示している。
こうした技術的理由だけからすれば,予測変数間の相関係数は大きいよりも小さいほうが好まれる。
これに関して,予測変数間の相関係数が小さいほうがいいことについて,実践的,あるいは解釈的な理由もある。
予測を目的としたMRC使用において,多重共線性が低いことの実用上の利点は,各予測変数が基準変数と高い相関を示し,かつ他の予測変数と相関していない際に最も効率的な予測ができることである。
この場合,各予測変数はそれぞれが単独で重要であり、冗長性がなく,影響の重複もなく,だからこそ予測にかかるコストが低くてすむのである。
MRCが実際の予測に使われるときに,多重共線性が低いほうが好まれることの例外は,抑圧変数を使うときに生じる。
これらは,1つあるいはそれ以上の他の予測変数と高い相関を示すが、基準変数とは相関しない予測変数である。
MRCでは統制(パーシャルアウト)があるが,抑圧変数があると他の予測変数と基準変数に関係のない,すなわち共有していない分散を奪うことになる。
その結果,こうした他の予測変数の偏相関係数が大きくなり。無関係な分散は除外されて,抑圧されることになる。
全体的な結果としては予測が向上することになる。
残念なことに,大きな抑圧効果をもつ変数を探す,少なくとも測定のコストを下げるのに十分な抑圧効果をもつ変数を探すことは,これまで考えられてこなかった。
多重共線性は重回帰分析の理論的な解釈にも問題をもたらす。
予測変数問の相関関係が強くなればなるほど,基準変数(y)において同じ分散を共有される可能性が増える。
この問題は。どの予測変数がyとの分散を共有するのに寄与しているか,つまり冗長なのかを決めるときに生じる。
MRC,あるいは他の統計手法は,こういった決定を行うことができない。
MRCにおいてこの冗長な分散はあらゆる予測変数の独立した寄与(部分相関係数)のときには隠れてしまっている。
現実には,この分散の共有は予測変数の1つが単独で引き起こしており,他の変数と関係していることはほとんどない。
統計に対する盲目的な信頼よりも,どの予測変数がyにおける分散の冗長性に寄与しているのかを決めるときには,理論的な理由づけに注意を払わなければならず,可能であれば,実験的に検証しなければならない。
関連記事