多変量解析において仮定するモデル(教師)|重回帰分析・判別分析・主成分分析・クラスター分析【統計学・統計解析講義基礎】
多変量解析は難解だが、大きくは2つの枠組みがある。仮定するモデル(教師)あり:重回帰分析、判別分析など、仮定するモデル(教師)なし:主成分分析、クラスター分析など
多変量解析についてわかりやすく解説した教科書は皆無といっていいかもしれません。
多くの多変量解析の解説書は、難しい線形代数の理論的展開に終始したり、ツールの解説に終始したりする場合が多いです。
それだけ分かりやすく説明するのが難しい分野ともいえます。
基本的に人間の脳は、沢山のことを一度に考えるのが苦手なように出来ています。
いわゆる多変量データとは、以下のように多数の観測値について多数の特性(変数)が観測されているデータを指すわけですが、まずこうしたデータを見た段階で、「いったいこれからどうすればいいの」と立ち止まってしまうのが正常な人間の心理でしょう。
現実問題として、私たちはこのような多変量データをよく見かけると思います。
医療の分野でも数多くの患者さんの背景データ(性別、年齢、臨床検査値などを含む)はこのような多変量データの形式をしています。
大きな枠組みとしては、
仮定するモデルあり
説明変数が連続変数で目的変数も連続変数 ⇒ 重回帰分析
説明変数が連続変数で目的変数がカテゴリカル変数 ⇒ ロジスティック回帰分析、判別分析など
仮定するモデルなし
主成分分析、クラスター分析など
仮定するモデルとは、本によっては「教師」と書いてあるものもあります。
つまり、直線回帰分析では教師が生徒に教えるように、「直線にあてはめなさい」と指示するわけです。
主成分分析、クラスター分析では、このような教師はなく、データのあるがままを解析します。
確かに多変量解析は難しい分野ではありますが、手法そのものは確立しています。
また、扱う変数が連続変数か、カテゴリカル変数かがわかれば、上記の基準にしたがいどの手法を使うべきかがおおよそ明確になります。
解が100%得られる保証はありません。モデルが不安定で、計算不能となることもしばしばあります。
とくに変数間の関連性が強いときはそうした計算不能が起りやすいので、そのような場合には、変数間の相関を確認するとか、変数を減らすなどの作業が適宜必要です。
また、多変量解析では、得られた解の解釈も単変量に比べ難しいです。
変数が多ければ多いほど、一つ一つの変数が、目的変数にどの程度寄与しているか、変数間の関係はどうかなど、調べなければいけない項目が多くなります。
考察も当然難しくなります。複数の変数を選んだのであれば、その根拠を明示する必要があり、また得られた結果がその根拠を担保するかどうかも確認する必要があります。
多変量解析はこのように一見難しいですが、手法そのものは確立しており、扱う変数の属性がわかれば解法の指針はおおよそ明確になります。
ですので臆せず多変量解析に積極的にチャレンジしてみてください。
昔は多変量解析というと、統計学の専門家でしか出来ない領域でしたが、近年の統計ソフトの進歩により、多変量解析のラインアップも充実しており、誰でも簡単に出来るようになっています。