主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】
主成分分析(PCA)は、多変量データを新しい軸(主成分)に変換して分散を最大化する手法です。最初にデータを標準化し、共分散行列から固有値と固有ベクトルを計算します。最大の固有値に対応する固有ベクトルが、データの分散を最大にする方向(第1主成分)を示します。この過程では、相関係数の平方和を最大化することで、最適な回転角度を見つけます。PCAにより、データの本質的な情報を保ちながら変数の数を減らし、データセットの構造を簡素化できます。

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】

 

回転行列による座標変換

 

以下の例について、主成分分析による総合評価を行いたいとします。

 

       運動機能認知機能
患者A   42
患者B  2−1
患者C  −21
患者D  −4−2

 

先ずは運動機能と認知機能が等価になるように数値を調整するため、平均を0、分散を1にする、すなわち「標準化」を行います。

 

この例を標準化すると以下のようになります。

 

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】

 

主成分分析は、数学的には、座標の回転による変換は回転行列により計算されます。

 

数式はあまり使いたくないのが正直なところですが、座標回転のプロセスを理解する上で最低限ここは不可欠なので示しました。

 

例ではθ=45度なので、以下のようになります。

 

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】

 

結局していることは単に45度回転しているだけなのですが、これにより、総合機能Z1という指標を得ることができ、患者A〜Dさんの総合的な健康状態を定量的に把握することができます。

 

例えば大雑把な判断ではありますが、Aさんは通院終了、BさんとCさんは通院継続、Dさんは入院、といった判断をすることができるようになります。

 

主成分分析は線形代数における座標変換に相等します。

 

回転行列による座標変換です。

 

 

相関係数の平方和の最大化

 

主成分分析の実体は座標変換であり、Z1すなわち第1主成分という総合指標で、Z2すなわち第2主成分という相違性の指標で、データを表現しなおします。

 

例はわかりやすい45度でしたが、必ずしも45度だけではありません。いろいろな角度で分析されます。角度は何によって決まるかというと、

 

分散が最大になるような角度

 

で決められます。

 

分散とは、データの散らばりを表す尺度で、

 

と表されます。

 

分散が大きいほど、平均から離れた値が多く、それだけ分布のバラエティーが豊富であるといえます。

 

このバラエティーの豊かさは、分布のもつ「情報の豊かさ」つまり「情報量」に相当するといえます。

 

上の例では、分散の大きさはZ1>X, Y>Z2となり、Z1の分散は1.6、Z2の分散は0.4となります。

 

つまり、45度回転により分散を最大化したZ1が第一主成分であり、Z1の情報量はZ2の情報量の4倍大きいといえるわけです。

 

主成分分析では、この分散固有値ともいいます。

 

また、XとYの分散の和は2、Z1とZ2の分散(固有値)の和も2となります。

 

さて、上の例は45度回転ですので45度の回転行列で計算できるわけですが、この角度、つまり分散が最大になる角度が不明な場合、主成分分析はどのようにして行えばよいのでしょうか。

 

どのくらい回転させるのか、と言い換えてもいいです。

 

答えは、

 

相関係数の平方和を最大化する

 

ということです。

 

少し難しいので、例で説明しましょう。

 

主成分得点というのは、X(運動)とY(認知)の線形結合で表現されます

 

線形結合の係数がa1、a2です。固有ベクトルといいます。

 

いま、係数a1、a2を可変として、これを決めたいとします。

 

どのように決めるかというと、

 

@XとZの相関係数を最大にする

 

AXとZの相関係数を最大にする

 

ように決めます。

 

理由は、Zを代表値とするためには、ZにXとYの情報をなるべく多く注ぎ込んだほうがいいからです。

 

ただし、a1とa2は可変でいくらでも大きくなると、最大値を決めることができません。

 

そこで、a1とa2の平方和=1という制約条件をつけます。

 

総合指標の軸すなわち第一主成分を計算するには、分散を最大にします。

 

すなわち、第一主成分と各変数との相関係数を最大にします。

 

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
固有値と固有ベクトルについて解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

固有値と固有ベクトルは、行列が持つ特別な数とベクトルです。これらは、行列による変換の中で「方向は変わらずに大きさだけが変わるベクトル」として表されます。例えば、あるベクトルに行列をかけたとき、そのベクトルの向きが変わらないで、長さだけが何倍かになることがあります。このときの「何倍か」が固有値で、向きが変わらないベクトルが固有ベクトルです。簡単に言うと、固有値は行列が作用したときにそのベクトルがどれだけ伸び縮みするかを示す数で、固有ベクトルはその伸び縮みする方向を示す矢印です。これらは、物理学から金融学まで、多くの分野で重要な役割を果たします。たとえば、振動するシステムの振る舞いを理解するのに使われたり、データの重要な特徴を抽出するのに使われたりします。

 

 

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】


セミナー詳細                    解析ご相談                    LINEでお友達

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】

主成分分析で見るデータの真実: 変数削減の魔法【ChatGPT統計解析】