統計的決定木モデル|【ビジネス統計学・統計解析】
統計的決定木モデル
条件を分析する統計的決定木、ランダムフォレスト
回帰分析と並んで重要な分析手法が、統計的決定木です。
決定木は、ビジネスシーンでも幅広く活用されている手法で、条件を分岐させてロジカルに分析を行うことができます。
統計的決定木は、条件分岐の値をデータから計算して、最適な分岐を得ることができる手法です。
例えば、どのような特徴を持った顧客の収益性が高いかを分析したいとき、収益性(Y)が高いグループと低いグループが最も分かれるような条件分岐(X)を、データから割り出します。
そうすることで、どのような顧客の収益性が高く、どのようなグループの収益性が低いのかを分析することができます。
また、決定木をさらに発展させた手法に、ランダムフォレストというものがあります。
これは、データをランダムサンプリングして決定木を作成するという工程を数百回繰り返すことによって、決定木をたくさん作成します。
その決定木の総合評価を行い、推測したり予測したりします。木がたくさん集まるので、フォレスト(森)と呼ばれ、決定木よりも高い性能を持ちます。
統計的決定木は、条件による分岐で分析を行う手法です。
ランダムフォレストは、たくさんの決定木を使ってより高度な分析を行う方法です。
先ずデータからランダムサンプリングして決定木を作成し、この工程を数百回繰り返したくさんの決定木を作り、作成したたくさんの決定木の総合評価を行って、推測や予測を行います。
たくさんの木を使って分析を行うところからランダムフォレストと呼ばれています。
関連記事