決定木 vs ランダムフォレスト:当てはまりと解釈をどう選ぶ?【ChatGPT統計解析】
統計的決定木とランダムフォレストは複数の要因でターゲットを予測するモデルで、統計的決定木はデータから分岐を計算し解釈が難しい場合もあるが、ビジネス解釈を容易にする方法もあり、ランダムフォレストは解釈が難しいがデータへの当てはまりが高い。当てはまりと解釈のバランスを考慮し分析手法を選択する。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計的決定木とランダムフォレスト
統計的決定木、ランダムフォレストを使ってみよう
当てはまりと解釈のどちらを優先するかを決めて、作成しよう
統計的決定木やランダムフォレストも、複数の要因項目で1つのターゲット項目を表すモデルを作ることができます。
統計的決定木は、データから木の分岐を計算するため、しばしば仮説や業務知識の常識とは違った答えが出て、解釈に迷うことがあります。
この原因は、統計的決定木が、ターゲット項目を最適に分ける集団を、データから作るという方法で分岐を計算しているからです。
データを中立的に分析した場合の最適な結果を、統計的決定木が出しています。
ビジネス解釈をしやすい決定木にする場合は、統計的決定木で出た結果を参考にして仮説に沿って分岐を作り、決定木を作り直すといいでしょう。
その場合、統計的決定木で出た結果よりもデータの当てはまりは悪くなります。
モデルのデータへの当てはまりと、解釈のしやすさは一般的にトレードオフなので、当てはまりと解釈のしやすさのどちらを優先して分析するかによって分析手法を変えます。
ランダムフォレストは、統計的決定木より解釈はしにくいですが、データへの当てはまりは良くなります。
当てはまりと解釈のしやすさはトレードオフ
@統計的決定木の分析結果が、仮説や業務知識の常識とは異なることがある。
A分析結果が業務知識からは解釈しづらい場合は、統計的決定木で出た結果を参考に、仮説ドリブンで分岐を作り決定木を修正する。
Bモデルのデータへの当てはまりと、解釈のしやすさはトレードオフ。当てはまりと解釈のしやすさのどちらを優先して分析するかによって、分析手法を変える。
関連記事