パス解析で明かす因果のメカニズム【ChatGPT統計解析】
パス解析は1970年代から共分散構造分析用プログラムの登場により進化し、現在ではより洗練されたモデルが使用されています。パス解析の基盤は調査者の理論であり、それをモデルやパス図で表現します。データは各変数の測定値が必要で、観測データが少なくとも200〜300件必要とされます。結果には仮定された効果の推定値の提供と、モデルが観測データに適合するかの検証が含まれますが、異なるモデルが同じデータに適合する可能性もあるため妥当性は保証されません。例として、神経症的傾向と再発症状の研究では、モデルBがデータと一致して正しいとされましたが、モデルAは適合が不十分でした。また、再婚と精神的健康の研究では、以前の状態が再婚後の精神的健康を説明するという仮説が検証されました。内生変数と外生変数の区別も重要であり、外生変数はモデル外で説明される変数です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
パス解析の方法
パス解析の最も現代的で興味深い発達は,1970年代半ばより始まった。
共分散構造一般を分析するコンピュータプログラムが出てきたのだ。
共分散構造分析のプログラムは,他のものに比べてより洗練されたパス解析をすることができる。
新しいソフトウェアはこの技術に対する興味の復活をもたらした。
現在用いられ発表されているパス解析は,以前よりも完全で洗練されたものとなっている。
パス解析のモデル
パス解析の出発点は,変数セットでの因果関係に関する,調査者自身の理論である。
理論はモデルによって形式的に,明示的に表現される。
モデルはふつう,言葉とパス図(パスダイアグラム)によって表現される(そして時々数学的方程式の形で)。
パス図では,いくつかの仮説が圧縮された状態にまとめられている。
明確さ(モデルを展開するために必要)と圧縮性(パス図の決まりによってつくられる)という2 つの特徴こそが,パス解析を非常に魅力的なものにしているのだ。
パス解析のデータ
パス解析を行うためには,モデルに含まれる各変数のデータが必要となる。
各変数は間隔尺度,あるいは間隔尺度として扱ってもよいと信じられる順序尺度で測定される必要がある。
観測変数はモデルの複雑さによるが,少なくとも200-300は必要だ。
パス解析の結果
結果には大きく分けて2 種類ある。
まず,パス解析では仮定された効果の大きさの推定値を提供する。
このとき得られた推定値とモデルが成立した条件が正しいかどうかをしっかりと見きわめることが重要である。
言い換えるなら,モデルが正しいという仮説のもとで効果量は推定されるのである。
第二に,パス解析によって(ふつうは),モデルが観測されたデータ上でつじつまが合うかどうかを検証することができる。
もしモデルが観測されたデータ上でつじつまが合っていなかったら,モデルが適切ではなかったとして棄却することができる。
一方で,もしモデルとデータがつじつまが合っていたら,そのモデルが妥当であるといえるだろう。
しかし,同一データで異なるモデルがあてはまることもあり,パス解析ではモデルの妥当性は保証できない。
パス解析の例:症状の再発
多くの研究者は神経症の人が身体的症状をオーバーに訴えてくることを知っている。
つまり,神経症的傾向と症状の再発の訴えとの間には正の相関がある。Larsen(1992)は相関に影響する2 つのモデルを比較する研究を行った。
彼のモデルには次の3 つの変数が含まれている。
(a)24項目からなる尺度で測定された神経症的傾向,
(b)併発した症状の程度。これは2 か月の間,1 日に3 回以上の胃腸不良を訴えてくる回数の平均値をデータとした。
(c)再発した症状。これは研究が終わったあとの2 か月間で生じた胃腸不良の程度について質問紙で回答を得たものである。
二変数間のPearsonの積率相関係数により、これらの関係を示すことができる。
被験者は43名の学部学生である(43名のデータはパス解析をするには少なすぎるが,この単純なモデルを検証するには十分である)。
このモデルAでは,神経症的傾向が再発に与える影響は非直接的である。
神経症的傾向は,それが生じたときにどのような症状として受け止められるかに影響し,その知覚された影響がその後の再発の頻度に影響する。
モデルBでは,神経症的傾向の再発も直接影響するし,症状が生じた際の知覚を経由した影響も直接届く。
直接効果は,神経質な人は再発した症状を,実際にそのとき感じたよりも悪くなったと感じる,というさらなる仮説を生み出す。
パス上の数値は,標準化されたパス係数である。
それらは,モデルが正しいとしたときの,影響力の大きさを推定したものである(再発に対して併発した症状の影響力の大きさは,2 つのモデルで異なっている。この違いは,モデルの推定値が条件付きであることを意味する)。
標準化されたパス係数は,Pearsonの積率相関係数と同じような尺度である。
しかし,Pearsonの積率相関係数と異なるのは,範囲が−1.0と1.0からはみ出ることもあるという点である。
いずれのモデルでも,すべての影響力は有意である。
リサーチクエスチョンは「神経質的傾向が,再発した症状に直接影響しているのか」であるが,それはモデルB において有意であった。
モデルの妥当性に関して言うと,インプライド相関のところでのちほど述べるが,モデルAはあまりあてはまりがよくなく,ほぼ不正確である。
これについては,完全に逐次なモデル(モデルにおいてすべての因果的・直接的つながりを認めるモデル)のところで議論する。
また,モデルB はデータに一致していて正しいモデルに見えるが,検証できないことについても議論しよう。
内生変数と外生変数
パスモデルには2種類の変数がある。
内生変数と外生変数である。
内生変数の値は,モデルの中で1つ以上の他の変数によって説明されている。
外生変数は自明のものであり,わざわざ説明されることはない。
この違いは従属変数(内生変数)と独立変数(外生変数)の違いに似ている。
しかし,パスモデルでは,変数は独立変数にも従属変数にもなり得る。
たとえば,再発症状のモデルでは,併発した症状は神経症的傾向によって説明され,次に再発した症状の原因になっている。
だから併発した症状は内生変数である。
このルールは,変数がモデルの中のどの部分からも独立しているといえるかどうか,である。
再発した症状も内生変数である。
ところが,神経症的傾向はこのモデルの中では外生変数である。
なぜなら,このモデルは何もそれを説明しようとしないからだ。
神経症的傾向を説明する変数は,このモデルの外側にあるのである。
パス解析の例:再婚と精神的健康
Greene (1990)は,妻に先立たれた年配者の再婚と彼らの精神的健康が関連することを調査するために,パス解析を用いた。
大きなデータセットから335名の単身者になった男性を抽出し,サンプルがつくられた。
この研究は時系列的なものである。
男性は1 人になる前に一度,なった後に二度目のインタビューを受けた。
モデルの1つは, Greeneが「拡張選択モデル」とよんだもので説明された。
この特別なモデルの背後にある理論は,再婚した男性と再婚していない男性との間の精神的健康の違いは,以前の精神的健康によって説明しうるとするものだ。
すなわち,再婚した男性は最初の結婚よりも高い幸福感を得るということであるれ。
このパスモデルには3 つの外生変数,以前の健康,以前の豊かさ,教育,が含まれている。
そして内生変数は以前の精神的健康,健康,豊かさ,再婚,そして精神的健康,の5 つである。
検証される仮説は,再婚と精神的健康がそれぞれの以前の状態によって説明されるというものだ。
二変数間のPearsonの積率相関係数により変数間の関係は説明される。
パス解析は、統計学的な手法の一つであり、複数の変数間の因果関係を分析する際に使用されます。1970年代以降、共分散構造分析用のコンピュータプログラムの登場により、パス解析は大きく進化を遂げ、研究者がより複雑で洗練されたモデルを構築できるようになりました。これにより、この技術に対する関心が再び高まり、現在では多くの研究においてパス解析が活用されています。パス解析の基本は、調査者自身の理論に基づいた因果関係の仮説を形式化することであり、その仮説は通常、パス図や数学的方程式で表現されます。パス図は仮説を視覚的に示すものであり、モデルを明確かつ簡潔に伝えることが可能です。このような特性が、パス解析を多くの研究者にとって魅力的な手法としています。パス解析を実施するには、モデルに含まれる各変数のデータが必要であり、それらは通常、間隔尺度または間隔尺度として扱うことが妥当とされる順序尺度で測定されます。また、観測変数のデータは少なくとも200〜300件程度が必要とされます。パス解析の結果には、大きく分けて2種類があります。1つ目は仮定された効果の大きさの推定値を提供するものであり、この推定値が適切であるかどうかを検証することが重要です。モデルが正しいという仮定の下で効果量が推定されるため、その前提条件の妥当性を慎重に評価する必要があります。2つ目はモデルが観測データ上で適合するかどうかを検証するものであり、適合しない場合にはモデルを棄却することが可能です。ただし、1つのデータセットに対して複数のモデルが適合することもあり、この点でモデルの妥当性を完全に保証することはできません。例えば、神経症的傾向と再発症状に関する研究では、Larsen(1992)が仮説を検証するために2つのモデルを比較しました。モデルAでは神経症的傾向が再発に間接的な影響を与えると仮定されており、モデルBでは直接および間接的な影響の両方を考慮しています。この研究では、モデルBがデータと一致して正しいと判断されましたが、モデルAは適合が不十分であり、ほぼ不正確であるとされました。さらに、Greene(1990)による再婚と精神的健康に関する研究では、再婚後の精神的健康が以前の状態によって説明されるという仮説が検証されました。この研究では、以前の健康、豊かさ、教育などの外生変数と精神的健康や再婚などの内生変数を組み合わせたモデルが使用されました。内生変数とは、他の変数によって説明される変数を指し、外生変数はモデル外でその値が決まる変数を指します。例えば、神経症的傾向と再発症状のモデルでは、併発した症状は神経症的傾向によって説明され、再発症状の原因にもなっているため内生変数とされます。一方で、神経症的傾向自体はモデルの外で説明されるため外生変数とされます。このような変数の分類が、パス解析において重要な役割を果たします。また、パス解析の結果として得られる標準化パス係数は、影響力の大きさを示すものであり、Pearsonの積率相関係数と同じような尺度で解釈されますが、その値は-1.0や1.0を超えることもあります。この特徴により、パス解析では単なる相関関係以上の情報を得ることが可能となります。以上のように、パス解析は変数間の複雑な関係を明らかにするための有力な手法であり、心理学、教育学、社会科学など多くの分野で広く活用されています。しかしながら、モデルの妥当性を保証することは難しく、適切な理論とデータの選択が成功の鍵となります。そのため、調査者はモデル構築時に仮説の妥当性を慎重に検討し、観測データとの適合性を詳細に分析する必要があります。
関連記事