Python・R・エクセルによるデータサイエンス | 統計解析講義

主成分分析は情報縮約の統計学【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

主成分分析は情報縮約の統計学【統計解析講義基礎】

主成分分析は情報縮約の統計学【統計解析講義基礎】


主成分分析は情報縮約の統計学【統計解析講義基礎】

 

主成分分析は、複数の観測された変量をそれよりも少ない合成変量すなわち主成分に縮約してデータの解釈を行う手法です。

 

例えば、生徒が国語、社会、英語、数学、理科の5科目の試験を受けたとします。

 

人には文系型と理系型があるといわれています。もしそれが本当なら、文系科目とされる国語、社会、英語の成績には強い正の相関があり、理系科目とされる数学と理科の成績にも強い相関があるでしょう。

 

また、文系科目と理系科目はおおよそ無相関となるでしょう。

 

個々の科目の成績順に生徒を並べることもできますが、科目の点数に重みをつけた総合評価を考えて生徒を並べることができます。

 

つまり、文系科目が得意な生徒の順や理系科目が得意な生徒の順に並べることができます。

 

さまざまな犬種の体長、体高、体重、胴まわり、脚の長さなど、体の測定データが得られているとします。

 

犬の特徴を考えると、まずは大型犬から小型犬の順に種類を並べることができます。

 

大きさがおよそ同じだとすると、次はスマートな体型の犬から丸い体型の犬へと種類を分けることができます。

 

主成分分析の概要

 

成績の例では、

 

総合点=国語の重み×国語の点数+社会の重み×社会の点数+・・・・+理科の重み×理解の点数

 

のようになります。

 

ただし、各科目の重み(成分負荷量または因子負荷量といいます)の2乗和を1としておきます。

 

このような総合点の中で分散が最大であるものを第1主成分といいます。

 

次に第1主成分と無相関で、分散が最大であるものを第2主成分といいます。

 

このようにそれまでの主成分と無相関であり、分散が最大であるものを順次求めていきます。

 

このことをデータの構造と解釈という別の方法で説明します。

 

例えば、p個の変量がある場合、実際に行っていることはp次元空間に存在しているデータの軸の回転です。

 

はじめに、分散が最大となる軸を探し、次にその軸と直交する軸の中で2番目に分散が大きくなる軸を探します。

 

これを順次続け、p番目の軸まで探します。1番目に得られた軸から順に第1主成分、第2主成分、となります。

 

成分負荷量と解釈

 

成分負荷量の大きさにより各主成分の解釈を行います。

 

例えば、第1主成分の成分負荷量の中で文系科目に対するものが大きいのであれば、文系能力の成分と解釈されます。

 

第2主成分の成分負荷量の中で理系科目に対するものが大きいのであれば、文系能力の成分と解釈されます。

 

第1主成分を横軸に、第2主成分を縦軸にとって成分負荷量をプロットすると、相関のある科目のグループをみることができます。

 

主成分に対する成分負荷量が得られたら、生徒の科目の点を代入することによって、各生徒の総合点が得られます。

 

これを第1主成分得点、第2主成分得点、・・・と呼びます。

 

これらの主成分得点によって文系能力順や理系能力順に生徒を並べることができます。

 

また、第1主成分を横軸に、第2主成分を縦軸にとって主成分得点をプロットすると、文系と理系の能力がある生徒、一方の能力がある生徒、どちらの能力もあまりない生徒に分けることができます。

 

主成分分析は因子分析と混同されるので注意が必要です。

 

因子分析はさまざまな手法がありますが、主成分分析は軸の回転を考えるだけなので1つに決まります。

 

成分負荷量の求め方と寄与率

 

成分負荷量は分散共分散行列より求める場合と、相関行列より求める場合があります。

 

変量の単位が異なる場合や、単位が同じでも変量の分散が極端に異なる場合には相関行列を用います。

 

どちらの行列を用いても成分負荷量の導出は固有値問題を解くことになります。

 

ここでは、相関行列を用いる場合について説明します。

 

行列の固有値は変量の数(例えばp個)あります。

 

それを、λ1≧λ2≧・・・≧λpとし、これら固有値に対応するノルムが1の固有ベクトルをa1, a2, ・・・,apとします。

 

最大固有値λ1の大きさは第1主成分の分散の大きさを意味し、対応する固有ベクトルa1は成分負荷量の並びとなります。

 

このように、固有値の大きさの順に第1主成分、第2主成分、・・・が求められます。

 

対応する固有ベクトルはそれぞれの成分負荷量の並びです。

 

すべての固有値の和は変量の数pと同じになります。

 

そこで、λ1/pを第1主成分の寄与率と定義し、主成分の説明力を評価します。

 

このように各主成分の固有値よりその寄与率が定義でき、説明力が評価できます。

 

第1主成分の寄与率から順に第k主成分の寄与率まで足し合わせたものを累積寄与率といいます。

 

一般に固有値が1以上の主成分や、累積寄与率がおよそ0.8までの主成分を用いてデータを解釈します。

セミナー詳細こちら                    解析ご相談こちら


 

主成分分析は情報縮約の統計学【統計解析講義基礎】

主成分分析は情報縮約の統計学【統計解析講義基礎】

主成分分析は情報縮約の統計学【統計解析講義基礎】