Python・R・エクセルによるデータサイエンス | 統計解析講義

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】


モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

目次  モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

ロジスティック回帰分析

 

ロジスティック回帰分析は、説明変数が連続変数で、目的変数が2値のカテゴリカル変数(あるなし、生存死亡など)で、目的変数を予測する場合に有効な手法です。
説明変数は1つでも、多数でも(多変量解析)可能です。先ずは説明変数が1つの場合を考えてみましょう。

 

試験管内で、大腸菌にいろいろな濃度のエタノールを加え、生存する菌の数(100個あたり)を調べたところ、以下の結果が得られました。

 

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

先ずこの結果から、少々のエタノールの濃度(1〜2%)では、大腸菌は死なないことがわかります。

 

一方、6〜7%でほとんどの大腸菌は死亡するので、これ以上濃度を高くしても意味がないことがわかります(脚注⇒実際の消毒用エタノールは70〜80%で使われていますが、このような試験管内の実験では7%で十分ということです)。

 

さて、これを縦軸死亡率、横軸濃度として散布図を描くと以下のようになります。

 

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

さて、このようなS字のデータの場合、中央は比較的予測しやすいですが、上と下は予測が難しいのです。

 

なぜなら、少しくらい横軸を変化させたところで、値が変わらないからです。

 

そこで、このような場合ロジット変換という手法で縦軸を変換します。

 

ロジット変換

 

先のデータは縦軸を死亡率、すなわち確率ととらえたときの線形確率モデルといえます。

 

pは死亡する確率をあらわします。

 

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

ここで、目的変数である確率は、0〜1の範囲をとります。

 

一般化線形モデルでは、目的変数の範囲はなるべく広い方が予測精度が高まります。

 

0〜1の範囲では狭すぎるので、このモデルはあまりよくありません。

 

そこで、死亡する確率を、死亡のオッズに変換します。

 

  モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

ここでpを0〜1の範囲で変化させると、オッズは0〜∞の範囲まで変化するようになります。

 

次いでこれの対数をとります。オッズの対数ですから対数オッズまたはロジットといいます。

 

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

これをロジット変換といいます。

 

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

こうすることにより、目的変数の範囲が、[−∞, ∞]となり、予測精度が向上するわけです。

 

これがロジスティック回帰モデルです。

 

ロジスティック回帰分析の出発点は線形確率モデルで、ロジット変換することにより、目的変数の範囲が、[−∞, ∞]となり、予測精度が向上します。

 

要は普通の回帰分析のYをロジットに置き換えただけと考えれば、話は簡単です。

 

問題としては、回帰分析では最小2乗法で回帰係数を求めますが、ロジスティック回帰分析では、等分散性が成立しないため、最小2乗法を使うことができません。

 

等分散性とは、どのXに対するYの分散も等しいという性質です。

 

両端が平坦で、中央が変動の大きいロジスティックモデルでは、等分散性は成立しないので、残念ながら最小2乗法を適用することができません。

 

そこで、ロジスティック回帰分析では、最尤推定法(最尤法)を適用します。

 

最尤推定法(最尤法)

 

最尤推定法とは、読んで字のごとく尤度を最大にする推定法です。

 

尤度(Likelihood)というのは確率を別の見方をしたものです。

 

例えばくじ引きでは、つぼの中の当たりくじの数は普通決まっていて、当たる回数と確率に一定のとびとびの関係があります(左の棒グラフ)。

 

ここで見方を変えます。たとえば当たる回数を3回に固定し、つぼの中の当たりくじの数を変えてみます(10個中1個〜10個と変化させる)。

 

すると、つぼの中の当たりくじの数と確率が一定の連続関係をもちます(右の図)。

 

このときの確率は、尤度という言い方をします。

 

尤度最大時の当たりくじ数を求めるのが最尤推定法です。

 

この場合、10回引いて3回当たる確率すなわち尤度は10個中3個入っている場合が最大となり、その確率は0.267となります。最尤推定量は0.3となります。

 

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

 

ロジスティック回帰分析では等分散性が成立しないため、最小2乗法ではなく最尤推定法により回帰係数を求めます。

 

最尤推定法の意味を理解しましょう。

セミナー詳細こちら                    解析ご相談こちら


 

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】

モデルによる推測統計学:ロジスティック回帰分析【統計解析講義基礎】