層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】
層ごとの相関とは、集団を部分集団に分け、それぞれで相関を分析する方法です。食塩感受性の例では、感受性のある人では塩分摂取量と血圧に相関が見られ、ない人では相関が見られません。このように、異なる集団での相関を合併すると、誤った結果になることがあります。たとえば、小学生の身長と幅跳びの相関では、各学年での相関と全体での相関が異なることが示されます。相関分析の際には、集団を分けて考える視点が重要です。また、偏相関係数を用いて、ある変数の影響を除いた相関を簡便に求める方法もあります。

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】

 

 

層ごとの相関(correlation for stratified sample)の統計学

 

食塩感受性のある人びとにおいては、塩分摂取量と血圧の間に明確な正の相関があるが、食塩感受性のない人びとにおいてはそうした相関はみられない。

 

このように相関関係のあり方は、対象となる集団によって異なることがある。

 

この場合、2つの集団をあわせた全体で相関をとると、いずれの集団における相関関係をも正しく反映しないことになる。

 

また、相関関係のあり方自体は集団によってほぼ同じでも、各集団の散布図の位置が異なる場合には、やはりこれらの集団を合併した場合の相関は、それぞれの集団における相関関係とは違った様子を示す。

 

この後者の例を模式的に示したのが以下の図1である。

 

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】

 

図1では、小学校の低学年、中学年、高学年の3つの集団で、横軸に身長、縱軸に走り幅跳びの成績をとって相関関係を示している。

 

このうち低学年では、身長も幅跳び成績も低いので、散布図が全体として左下の位置にあり、高学年では逆に、身長も幅跳び成績も高いので、散布図が全体として右上に位置している。

 

この3つの集団をあわせて小学生全体として相関をとると、「身長が高いほど幅跳び成績も高い」という傾向が、各集団内での関係の強さに比べて非常に目立ってくる。

 

このようなことから、相関関係をみる際には、必要に応じて全体の集団を部分の集団に分割し、それごとに相関をとるという視点も忘れてはならない。

 

こうした相関のとり方を「層別相関」あるいは「分割相関」とよんでいる。

 

偏相関による層別相関への接近

 

では部分の集団ごとにみられる相関関係の平均的な様子を知るには、どうすればよいか。

 

基本的には図2のように部分の集団ごとの散布図を中央に集めて(センタリングして)、そのうえで集団全体について相関係数を求めるとよい。

 

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】

 

ただし、たとえば年齢によって集団を分ける場合、どの年齢を境にいくつの下位集団に分けるのかという問題もあるし、そうでなくても、部分の集団ごとのデータをセンタリングしてそのデータを合体(プール)するという作業はやや手間がかかる。

 

その作業に代わるものとして「偏相関係数」とよばれる指標がある。

 

部分集団ごとの平均的な相関関係を、簡単な計算によって近似しようというのが偏相関のアイディアである。

 

たとえば、上記の例における低学年、中学年、高学年という部分集団の違いを、ある変数(図1ではZと表示)で表しておき、その変数と、もともとの2つの変数(身長と幅跳び成績)の、合わせて3つの変数の間の相関係数を求めれば、その3個の相関係数の値から簡単な公式で偏相関係数を算出することができる。

 

偏相関係数は、「ある変数(上記の例では学年Z)を一定としたときの、他の2つの変数(上記の例では身長と幅跳び成績)の間の相関係数」と説明されることが多い。
しかし、現実には固定する変数をどの値で一定とするのか、たとえば低学年でみるのか、高学年でみるのかによって相関係数の値は同じにならない。

 

したがって、そうした説明は、事態を単純化した近似的な表現と解釈する必要がある。

 

それよりは「ある変数の影響を除いたときの、他の2つの変数の間の相関係数」という説明のほうが誤解が少なくてよい。

 

偏相関係数は、2つの変数の間に見られる相関関係が、直接的な関係によるものか、それとも第3の変数の影響による見かけ上のものかを判断するのに役立つ指標である。

 

また、たくさんの変数間の相関関係を「因子」とよばれる潜在変数によって簡潔に表現しようとする際にも、偏相関の考え方が中心的な役割を果たす。

 

 

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】

層別相関の秘密:集団ごとの真実を見抜く方法【ChatGPT統計解析】