判別分析|【統計学・統計解析講義応用】
判別分析
私たちは、五感を通じて入力される膨大なデータを処理しています。
その中で最も多いのは、識別(discrimination)、分類(classification)、認識(recongnition)に関する処理です。
例えば、新聞や本などを読むときには、視覚を通じて入力されたデータと脳の中のデータ(学習済みのデータ)との照合を行い、その文字の読み方や意味などを識別・認識します。
識別に関する能力は人間のみならず、他の動物も持っています。
識別・認識に関することを機械的に実現する研究分野がパターン認識(pattern recognition)です。
パターン認識の例としては、郵便番号による手紙の自動分類や指紋・顔の機械的な照合などがあげられます。
パターン認識では、コンピュータに記憶させたデータと識別すべきデータとの一致度を何らかのモデルによって計算します。
その中で、最も古典的な手法は判別分析(discriminant analysis)です。
判別分析は、個体(あるいは対象)がどのグループに属するかが明確である学習データを用いて判別モデルを構築し、そのモデルを用いて所属不明の個体(テスト用のデータ)がどのグループに帰属するかを判別する方法です。
判別分析は、線形判別分析と非線形判別分析に大別されます。
また、所属不明の個体が2つのグループのいずれに属するかを判別する問題を2群判別分析、3つ以上のグループのいずれに属するかを判別する問題を多群判別分析と呼びます。
回帰分析の場合、外的規準が量的データであるのに対し、判別分析の外的規準は質的データです。
機械学習の分野では、外的規準を用いた学習をスーパーバイズド学習(supervised learning)とよびます。
線形判別分析では、グループ(群)分けの境界が直線あるいは超平面である場合に、線形関数を用いてグループの所属を判別する方法です。
フィッシャー(Fisher)が1930年中頃に提案した線形判別関数では、データが多変量正規分布にしたがい、グループの母分散が等しいという仮定のもとで、群間の分散と群内の分散の比を最大化することで係数を求め線形判別関数を求めます。
群間分散と群内分散の比を最大にするには、係数で偏微分を行い最大化する方程式を解きます。
第一固有ベクトルを第一判別関数の係数とします。
関連記事