主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】
主成分分析（PCA）は、多変量データを新しい軸（主成分）に変換して分散を最大化する手法です。最初にデータを標準化し、共分散行列から固有値と固有ベクトルを計算します。最大の固有値に対応する固有ベクトルが、データの分散を最大にする方向（第1主成分）を示します。この過程では、相関係数の平方和を最大化することで、最適な回転角度を見つけます。PCAにより、データの本質的な情報を保ちながら変数の数を減らし、データセットの構造を簡素化できます。

▼▼▼▼▼▼▼▼
チャンネル登録はこちら

目次主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

回転行列による座標変換

相関係数の平方和の最大化

ChatGPTに聞いてみた

回転行列による座標変換

以下の例について、主成分分析による総合評価を行いたいとします。

　　　　　　　運動機能認知機能
患者Ａ　　　４２
患者Ｂ　　２－１
患者Ｃ　　－２１
患者Ｄ　　－４－２

先ずは運動機能と認知機能が等価になるように数値を調整するため、平均を０、分散を１にする、すなわち「標準化」を行います。

この例を標準化すると以下のようになります。

主成分分析は、数学的には、座標の回転による変換は回転行列により計算されます。

数式はあまり使いたくないのが正直なところですが、座標回転のプロセスを理解する上で最低限ここは不可欠なので示しました。

例ではθ＝４５度なので、以下のようになります。

結局していることは単に４５度回転しているだけなのですが、これにより、総合機能Ｚ１という指標を得ることができ、患者Ａ～Ｄさんの総合的な健康状態を定量的に把握することができます。

例えば大雑把な判断ではありますが、Ａさんは通院終了、ＢさんとＣさんは通院継続、Ｄさんは入院、といった判断をすることができるようになります。

主成分分析は線形代数における座標変換に相等します。

回転行列による座標変換です。

相関係数の平方和の最大化

主成分分析の実体は座標変換であり、Z1すなわち第1主成分という総合指標で、Z2すなわち第2主成分という相違性の指標で、データを表現しなおします。

例はわかりやすい45度でしたが、必ずしも45度だけではありません。いろいろな角度で分析されます。角度は何によって決まるかというと、

分散が最大になるような角度

で決められます。

分散とは、データの散らばりを表す尺度で、

と表されます。

分散が大きいほど、平均から離れた値が多く、それだけ分布のバラエティーが豊富であるといえます。

このバラエティーの豊かさは、分布のもつ「情報の豊かさ」つまり「情報量」に相当するといえます。

上の例では、分散の大きさはZ1＞X, Y＞Z2となり、Z1の分散は1.6、Z2の分散は0.4となります。

つまり、45度回転により分散を最大化したZ1が第一主成分であり、Z1の情報量はZ2の情報量の４倍大きいといえるわけです。

主成分分析では、この分散を固有値ともいいます。

また、XとYの分散の和は2、Z1とZ2の分散（固有値）の和も2となります。

さて、上の例は45度回転ですので45度の回転行列で計算できるわけですが、この角度、つまり分散が最大になる角度が不明な場合、主成分分析はどのようにして行えばよいのでしょうか。

どのくらい回転させるのか、と言い換えてもいいです。

答えは、

相関係数の平方和を最大化する

ということです。

少し難しいので、例で説明しましょう。

主成分得点というのは、X（運動）とY（認知）の線形結合で表現されます。

線形結合の係数がa1、a2です。固有ベクトルといいます。

いま、係数a1、a2を可変として、これを決めたいとします。

どのように決めるかというと、

①XとZの相関係数を最大にする

②XとZの相関係数を最大にする

ように決めます。

理由は、Zを代表値とするためには、ZにXとYの情報をなるべく多く注ぎ込んだほうがいいからです。

ただし、a1とa2は可変でいくらでも大きくなると、最大値を決めることができません。

そこで、a1とa2の平方和＝１という制約条件をつけます。

総合指標の軸すなわち第一主成分を計算するには、分散を最大にします。

すなわち、第一主成分と各変数との相関係数を最大にします。

ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
固有値と固有ベクトルについて解説してください。
#制約条件：
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

固有値と固有ベクトルは、行列が持つ特別な数とベクトルです。これらは、行列による変換の中で「方向は変わらずに大きさだけが変わるベクトル」として表されます。例えば、あるベクトルに行列をかけたとき、そのベクトルの向きが変わらないで、長さだけが何倍かになることがあります。このときの「何倍か」が固有値で、向きが変わらないベクトルが固有ベクトルです。簡単に言うと、固有値は行列が作用したときにそのベクトルがどれだけ伸び縮みするかを示す数で、固有ベクトルはその伸び縮みする方向を示す矢印です。これらは、物理学から金融学まで、多くの分野で重要な役割を果たします。たとえば、振動するシステムの振る舞いを理解するのに使われたり、データの重要な特徴を抽出するのに使われたりします。

関連リンク

メタアナリシスとは【統計解析講義応用】

相関と因果【統計解析講義応用】

パス係数の計算【多変量解析】

立てた仮説をデータで検証する【ビジネス統計解析】

1

2

3

4

5

6

主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【トップページへ戻る】
【YouTubeChannel】
【統計解析講義基礎】
【統計解析講義応用】
【ChatGPT・Python・Excel】
【多変量解析】
主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【医療統計解析】

主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【社会経済統計】
【ビジネス統計】
【AI・デジタル】
【統計解析コラム】
【統計解析用語集】
【統計解析セミナー】
主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】【お問い合わせ】

セミナー詳細解析ご相談 LINEでお友達

主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】 | 統計解析 - ChatGPT・Python・エクセルを使った講義で最速マスター

主成分分析で見るデータの真実: 変数削減の魔法【東京情報大学・嵜山陽二郎博士のAIﾃﾞｰﾀｻｲｴﾝｽ講座】

回転行列による座標変換

相関係数の平方和の最大化

ChatGPTに聞いてみた

プロンプト

ChatGPTの回答

メニュー

サブメニュー

最新記事