線形重回帰 vs ランダムフォレスト:多重共線性をどう克服するか?【ChatGPT統計解析】
線形重回帰は、複数の要因項目を考慮した分析手法であり、各要因をx1、x2などとし、Y=a1×x1+a2×x2+・・・+bの数式で表現される。要因とターゲットの関係は直線的であり、要因同士に比例関係がない必要がある。多重共線性と呼ばれる要因間の比例関係の問題がある場合、適切な結果が得られない。統計的決定木やランダムフォレストはこの問題を回避できる。複数のターゲット項目がある場合、それぞれについて個別にモデルを作成する必要がある。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
線形重回帰分析を行う
要因項目が2つ以上あっても使える分析手法
複数のターゲット項目には使えない
線形重回帰は、要因項目が2つ以上あっても分析できる手法です。
要因項目をそれぞれ、x1, x2, ・・・とすると、Y=a1×x1+a2×x2+・・・+bという数式で表現できます。
ひとつひとつの要因項目とターゲット項目の関係性は、直線的な関係(比例関係)です。
もし要因項目とターゲット項目が直線的な関係性を持っていないと考えられる場合は、この手法は適しません。
また、重回帰分析を行う際の注意点として、要因項目同士に比例関係があってはならないという制限があります。
比例関係のある要因項目を使ってa1やa2を計算すると、理論的にあり得ない値になります。
この現象は、統計学の用語で多重共線性(マルチコ)と呼ばれています。
これは統計的決定木やランダムフォレストでは起こらないので、マルチコを気にせず分析したいときにはこれらの手法を使いましょう。
また、ターゲット項目が複数あるときは、同時に複数のターゲット項目を分析できる簡単な手法はありません。
その場合は、ターゲット項目ひとつひとつに対して、別々にモデルを作ることになります。
線形重回帰モデルを作るための条件
@ひとつひとつの要因項目とターゲット項目は直線的な関係(比例関係)を持つ。
A要因項目同士に比例関係がない。
Bターゲット項目が複数ある場合は、ターゲット項目ひとつひとつに対して別々にモデルを作る。
C線形重回帰分析条件に当てはまらない場合:比例関係のある要因項目を使って計算すると、理論的にあり得ない値になる(多重共線性)。
関連記事