Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学的情報縮約:主成分分析とは【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学的情報縮約:主成分分析とは【統計解析講義基礎】

統計学的情報縮約:主成分分析とは【統計解析講義基礎】


統計学的情報縮約:主成分分析とは【統計解析講義基礎】

 

多変量解析のなかには、モデルを使わないで、データそのものから特徴を抽出したりオブザベーションの類似性を評価したりする方法があります。

 

ここでは主成分分析を紹介します。

 

総合的にどうなのか

 

私たちは、日常で「調子が良い」という言葉をよく使います。

 

たとえば、頭脳明晰であっても体がだるかったりする場合は調子が良いとは言いません。

 

また、体に問題がなくても、寝不足で頭が働かない場合も調子が良いとは言いません。

 

私の場合、どちらか一方であった場合は我慢して出勤しますが、両方悪い場合には仕事を休むという選択肢をとります。

 

つまり、仕事を休むという選択をするためには、「総合的にどうなのか」という判断が必要になるわけです。

 

例えば診断の結果沢山の評価項目がある場合、どのように対処したらよいか判断に困る場合があります。

 

数箇所の評価項目が悪い場合には精密検査で済みますが、全ての評価項目が非常に悪い場合は、入院が必要という判断が下されます。

 

しかし、時として、入院が必要か、通院で何とかなるのか、判断に苦しむ場合もあるでしょう。

 

そのような場合、総合指標で検討するというのが解決策の一つになります。

 

わかりやすい例をあげましょう。

 

運動機能 認知機能
患者A  4 2
患者B 2 −1
患者C −2 1
患者D −4 −2

 

さて、これら4人の患者で誰が一番総合機能として優れているかといえば、患者Aであることは明白ですが、これをもう少し科学的・定量的に考えてみましょう。

 

先ず、単純にこれらを足し算すれば良いではないか、と思うかもしれません。

 

しかし、足し算にはひとつ問題があるのです。

 

単純に足し算すると、例えば患者Aはスコア6となりますが、これは運動機能をより重視したスコアといえます。

 

しかし、運動機能を重視しなければいけないという医学的根拠はどこにもありません。

 

したがって、このような場合、「標準化する」という作業が必要になります。

 

特に運動機能を重視する理由がないのであれば、運動機能と認知機能が等価になるように数値を調整する必要があるわけです。

 

具体的には、平均を0、分散を1にすることが「標準化」という操作です。

 

この例を標準化すると以下のようになります。

 

さて、この標準化したデータに対して散布図を作成すると以下のようになります。

 

散布図から一目瞭然ですが、認知機能と運動機能をあわせて総合評価するには、座標を45度回転して図のZ1という総合機能の軸で評価するのが最も良いということがわかります。

 

また、認知機能と運動機能の差というのも医学的に興味深いわけです。

 

例えばアルツハイマー型認知症では認知機能の低下、パーキンソン病では運動機能の低下が顕著ですが、これらは一見見た目ではわからないものです。

 

そこで、各機能をスコア化してZ2軸で評価することにより、鑑別診断を支援することにつながります(実際にこれらの厳密な鑑別は画像診断によって行われますが)。

 

主成分分析は評価すべき変数が複数ある場合の総合評価の手法の一つです。各変数を均等に扱うべきである場合には標準化を行います。

セミナー詳細こちら                    解析ご相談こちら


 

統計学的情報縮約:主成分分析とは【統計解析講義基礎】

統計学的情報縮約:主成分分析とは【統計解析講義基礎】

統計学的情報縮約:主成分分析とは【統計解析講義基礎】