主成分分析で見るデータの真実: 変数削減の魔法

主成分分析で見るデータの真実: 変数削減の魔法 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー詳細                    解析ご相談                    LINEでお友達

主成分分析で見るデータの真実: 変数削減の魔法

主成分分析で見るデータの真実: 変数削減の魔法
主成分分析(PCA)は、多変量データを新しい軸(主成分)に変換して分散を最大化する手法です。最初にデータを標準化し、共分散行列から固有値と固有ベクトルを計算します。最大の固有値に対応する固有ベクトルが、データの分散を最大にする方向(第1主成分)を示します。この過程では、相関係数の平方和を最大化することで、最適な回転角度を見つけます。PCAにより、データの本質的な情報を保ちながら変数の数を減らし、データセットの構造を簡素化できます。


目次  主成分分析で見るデータの真実: 変数削減の魔法

 

回転行列による座標変換

 

以下の例について、主成分分析による総合評価を行いたいとします。

 

       運動機能認知機能
患者A   42
患者B  2−1
患者C  −21
患者D  −4−2

 

先ずは運動機能と認知機能が等価になるように数値を調整するため、平均を0、分散を1にする、すなわち「標準化」を行います。

 

この例を標準化すると以下のようになります。

 

主成分分析で見るデータの真実: 変数削減の魔法

 

主成分分析は、数学的には、座標の回転による変換は回転行列により計算されます。

 

数式はあまり使いたくないのが正直なところですが、座標回転のプロセスを理解する上で最低限ここは不可欠なので示しました。

 

例ではθ=45度なので、以下のようになります。

 

主成分分析で見るデータの真実: 変数削減の魔法

 

結局していることは単に45度回転しているだけなのですが、これにより、総合機能Z1という指標を得ることができ、患者A〜Dさんの総合的な健康状態を定量的に把握することができます。

 

例えば大雑把な判断ではありますが、Aさんは通院終了、BさんとCさんは通院継続、Dさんは入院、といった判断をすることができるようになります。

 

主成分分析は線形代数における座標変換に相等します。

 

回転行列による座標変換です。

 

 

相関係数の平方和の最大化

 

主成分分析の実体は座標変換であり、Z1すなわち第1主成分という総合指標で、Z2すなわち第2主成分という相違性の指標で、データを表現しなおします。

 

例はわかりやすい45度でしたが、必ずしも45度だけではありません。いろいろな角度で分析されます。角度は何によって決まるかというと、

 

分散が最大になるような角度

 

で決められます。

 

分散とは、データの散らばりを表す尺度で、

 

と表されます。

 

分散が大きいほど、平均から離れた値が多く、それだけ分布のバラエティーが豊富であるといえます。

 

このバラエティーの豊かさは、分布のもつ「情報の豊かさ」つまり「情報量」に相当するといえます。

 

上の例では、分散の大きさはZ1>X, Y>Z2となり、Z1の分散は1.6、Z2の分散は0.4となります。

 

つまり、45度回転により分散を最大化したZ1が第一主成分であり、Z1の情報量はZ2の情報量の4倍大きいといえるわけです。

 

主成分分析では、この分散固有値ともいいます。

 

また、XとYの分散の和は2、Z1とZ2の分散(固有値)の和も2となります。

 

さて、上の例は45度回転ですので45度の回転行列で計算できるわけですが、この角度、つまり分散が最大になる角度が不明な場合、主成分分析はどのようにして行えばよいのでしょうか。

 

どのくらい回転させるのか、と言い換えてもいいです。

 

答えは、

 

相関係数の平方和を最大化する

 

ということです。

 

少し難しいので、例で説明しましょう。

 

主成分得点というのは、X(運動)とY(認知)の線形結合で表現されます

 

線形結合の係数がa1、a2です。固有ベクトルといいます。

 

いま、係数a1、a2を可変として、これを決めたいとします。

 

どのように決めるかというと、

 

@XとZの相関係数を最大にする

 

AXとZの相関係数を最大にする

 

ように決めます。

 

理由は、Zを代表値とするためには、ZにXとYの情報をなるべく多く注ぎ込んだほうがいいからです。

 

ただし、a1とa2は可変でいくらでも大きくなると、最大値を決めることができません。

 

そこで、a1とa2の平方和=1という制約条件をつけます。

 

総合指標の軸すなわち第一主成分を計算するには、分散を最大にします。

 

すなわち、第一主成分と各変数との相関係数を最大にします。

 

 

主成分分析で見るデータの真実: 変数削減の魔法


セミナー詳細                    解析ご相談                    LINEでお友達

主成分分析で見るデータの真実: 変数削減の魔法

主成分分析で見るデータの真実: 変数削減の魔法