多重共線性の程度|【多変量解析・統計学・統計解析】
多重共線性の程度
多重共線性の程度は,偏回帰係数の絶対値や相対的な大きさにも影響しているため,解釈にも影響が出る。
概念的には、標準化された回帰係数の相対的な大きさは,基準変数との二変量相関の大きさとおおよそ等しくなることが予測される。
これは多重共線性が小さい場合の話である。
しかし予測変数間の相関が大きくなっているとき,これらの回帰係数の相対的な大きさは二変数の相関係数から大きく外れていく。
Pedhazur (1982)の示した例が,このことを描き出している。
その例では。全部で3つの予測変数(Xl.X2,X3)があり,それぞれ基準変数yとの二変数相関係数は独立的であるようにつくられていた(それぞれ 0.50. 0.50,0.52) 。
だから,人はこれらの3つの変数はyの説明について重要性は同程度だと考えるだろう。
しかし,もし
@XlとX2,あるいはXIとX3の相関係数がそれぞれ小さく(r= 0.20).
A X2とX3の相関係数が大きい(r = 0.85)
なら,これら3つの標準回帰係数は,それぞれ大きく変わってくる。
実際,Xlの標準倡回帰係数は2.5倍ぐらい大きくなる。
もし,この例における標準化回帰係数の相対的な大きさを単純に解釈した場合,X1はX2の2.5倍,X3の1.5倍も基準変数に寄与していると結論づけられるだろう。
しかし,標準化回帰係数の大きさの差異は予測変数間の相関がおもな原因であり,予測する変数と説明される変数(すなわち基準変数y)との相対的な関係が原因ではない。
Xlが大きな標準偏回帰係数をもつのは、他の予測変数との相関関係が小さかったからである。
X3の標準化回帰係数が小さいのは,yとの関係が重複しているからである。
しかし,標準偏回帰係数におけるこうした違いが,理論的な意味をもつ,あるいは3つの予測変数の真の因果的寄与を反映しているという保証はない。
この点を表現するために,FとX2に強い因果的影響を与えていると考えてみよう。
これら2つの変数に対する相関係数を計算するとX2はyに対してあったとしてもごく小さな因果的影響しかなく,その相関係数(r= 0.50)はX3との全体的な関係の結果生じたとしよう。
さらに,XIはFに対して強い因果的影響があるため相関係数が大きくなっているが、この効果はX3の囚果的影響とは異なる(つまり独立している)と考えよう。
このとき,X3は少なくともXlと同程度Fに寄与しているはずである。
しかし. MRCは本当の因果関係を決定することはできず,標準化回帰係数は上述のようにX1の大きな寄与を示す。
だから。多重共線性が大きくなると重回帰分析の結果を解釈して理論的な説明をするときの複雑さは,膨らんでくるのである。
なぜなら予測変数どうしの関係を考えなけれぱならないからである。
多重共線性の問題は. MRCにとって,いわゆるお手上げである。
重回帰分析の大きな利点は,潜在的な第三の変数からの影響を統計的に統制できることにあった。
最も妥当な第三の変数は,研究における基準変数と予測変数の両方と高く相関しているものである。
もし,無相関な予測変数のみを用いることで解釈の複雑さを低減しようとする場合には. MRCの最も強力な側面である,潜在的な第三変数による説明の統制は必要なくなる。
しかし,高い相関を示す予測変数は偏回帰係数の解釈を混乱させ,yにおける分散の大部分が偏相関係数では説明されなくなってしまう。
多重共線性はフラストレーションのたまる問題で,技術的な理由から,予測変数はあまりにも高い相関(たとえば > 0.80)をしてはいけないのである。
しかし,予測変数を選択するときに,相対的に小さな内的相関しかないものを選ぶだけでは,問題解決に不十分である。
後で述べるように,重要な変数がMRC分析に含まれていない場合、誤った定式化という深刻な問題が生じる。
いずれの変数を研究に用いるかという決定は、検定されている仮説を含む理論的考察に基づいてなされる必要がある。
こうした予測変数問の因果の方向についての理論的検証があれば,多重共線性から得られる結果の解釈問題を最小にしてくれるのである。
実験的な統制を用いることができないような状況下でも,MRCによる統計的な統制は,それが理論的考察およびその限界についての知識に基づいて設計され解釈される限りにおいて,複雑な現象の理由と特性の理解について重要な情報を提供できる。
MRCの使用における基本的な仮定は3つのカテゴリーに分類される。
@エラーすなわち残差得点に関するもの.
A誤った定式化に関するもの.
B測定誤差に関するもの,である。
関連記事