情報の精緻な抽出:主成分分析【ChatGPT統計解析】
主成分分析は、複数の変数から成るデータセットの情報を少数の合成変数、すなわち主成分に圧縮する統計手法です。最初に分散が最大となる方向を見つけ、これを第1主成分とします。次に、第1主成分と無相関で分散が最大の方向を第2主成分として決定します。このプロセスを繰り返し、データの構造を簡略化します。各主成分は因子負荷量によって解釈され、寄与率と累積寄与率を通じて、その主成分がデータ全体の分散にどれだけ寄与しているかを評価します。この方法により、データの背後にある構造を明らかにし、観測された変数間の関係性を理解しやすくします。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
主成分分析:分散が最大となる軸の決定
主成分分析は、複数の観測された変量をそれよりも少ない合成変量すなわち主成分に縮約してデータの解釈を行う手法です。
例えば、生徒が国語、社会、英語、数学、理科の5科目の試験を受けたとします。
人には文系型と理系型があるといわれています。もしそれが本当なら、文系科目とされる国語、社会、英語の成績には強い正の相関があり、理系科目とされる数学と理科の成績にも強い相関があるでしょう。
また、文系科目と理系科目はおおよそ無相関となるでしょう。
個々の科目の成績順に生徒を並べることもできますが、科目の点数に重みをつけた総合評価を考えて生徒を並べることができます。
つまり、文系科目が得意な生徒の順や理系科目が得意な生徒の順に並べることができます。
さまざまな犬種の体長、体高、体重、胴まわり、脚の長さなど、体の測定データが得られているとします。
犬の特徴を考えると、まずは大型犬から小型犬の順に種類を並べることができます。
大きさがおよそ同じだとすると、次はスマートな体型の犬から丸い体型の犬へと種類を分けることができます。
成績の例では、
総合点=国語の重み×国語の点数+社会の重み×社会の点数+・・・・+理科の重み×理解の点数
のようになります。
ただし、各科目の重み(成分負荷量または因子負荷量といいます)の2乗和を1としておきます。
このような総合点の中で分散が最大であるものを第1主成分といいます。
次に第1主成分と無相関で、分散が最大であるものを第2主成分といいます。
このようにそれまでの主成分と無相関であり、分散が最大であるものを順次求めていきます。
このことをデータの構造と解釈という別の方法で説明します。
例えば、p個の変量がある場合、実際に行っていることはp次元空間に存在しているデータの軸の回転です。
はじめに、分散が最大となる軸を探し、次にその軸と直交する軸の中で2番目に分散が大きくなる軸を探します。
これを順次続け、p番目の軸まで探します。1番目に得られた軸から順に第1主成分、第2主成分、となります。
因子負荷量で各主成分を解釈
因子負荷量の大きさにより各主成分の解釈を行います。
例えば、第1主成分の因子負荷量の中で文系科目に対するものが大きいのであれば、文系能力の成分と解釈されます。
第2主成分の因子負荷量の中で理系科目に対するものが大きいのであれば、文系能力の成分と解釈されます。
第1主成分を横軸に、第2主成分を縦軸にとって因子負荷量をプロットすると、相関のある科目のグループをみることができます。
主成分に対する因子負荷量が得られたら、生徒の科目の点を代入することによって、各生徒の総合点が得られます。
これを第1主成分得点、第2主成分得点、・・・と呼びます。
これらの主成分得点によって文系能力順や理系能力順に生徒を並べることができます。
また、第1主成分を横軸に、第2主成分を縦軸にとって主成分得点をプロットすると、文系と理系の能力がある生徒、一方の能力がある生徒、どちらの能力もあまりない生徒に分けることができます。
主成分分析は因子分析と混同されるので注意が必要です。
因子分析はさまざまな手法がありますが、主成分分析は軸の回転を考えるだけなので1つに決まります。
因子負荷量・寄与率・累積寄与率
因子負荷量は分散共分散行列より求める場合と、相関行列より求める場合があります。
変量の単位が異なる場合や、単位が同じでも変量の分散が極端に異なる場合には相関行列を用います。
どちらの行列を用いても因子負荷量の導出は固有値問題を解くことになります。
ここでは、相関行列を用いる場合について説明します。
行列の固有値は変量の数(例えばp個)あります。
それを、λ1≧λ2≧・・・≧λpとし、これら固有値に対応するノルムが1の固有ベクトルをa1, a2, ・・・,apとします。
最大固有値λ1の大きさは第1主成分の分散の大きさを意味し、対応する固有ベクトルa1は因子負荷量の並びとなります。
このように、固有値の大きさの順に第1主成分、第2主成分、・・・が求められます。
すべての固有値の和は変量の数pと同じになります。
そこで、λ1/pを第1主成分の寄与率と定義し、主成分の説明力を評価します。
このように各主成分の固有値よりその寄与率が定義でき、説明力が評価できます。
第1主成分の寄与率から順に第k主成分の寄与率まで足し合わせたものを累積寄与率といいます。
一般に固有値が1以上の主成分や、累積寄与率がおよそ0.8までの主成分を用いてデータを解釈します。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
主成分分析における変数の合成について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
主成分分析(PCA)は、たくさんのデータの中から、最も大切な情報を見つけ出す方法です。データがたくさんあると、それぞれがどれくらい重要なのかを見分けるのが難しいですよね。PCAは、そのデータの「要約役」みたいなものです。具体的には、PCAは多くの変数から新しい変数を作り出します。この新しい変数を「主成分」と呼びます。主成分は、元のデータの情報をできるだけ多く含みつつ、データをよりシンプルにするために作られます。例えば、スポーツ選手のパフォーマンスを分析するとき、走る速さ、跳ぶ高さ、力の強さなど多くのデータがあるとします。PCAを使うと、これらの情報から「総合的な運動能力」という一つの新しい変数を作ることができます。これにより、選手の比較や分析が簡単になります。つまり、PCAは複雑なデータの中から、最も重要なパターンを見つけ出し、データをシンプルにするための便利なツールです。