誤差の標準偏差(RMSE):回帰診断統計量|±1.96×RMSEの範囲に真の値が95%【統計学・統計解析講義基礎】
誤差の標準偏差(RMSE)とは、あてはめた回帰直線のまわりの標準偏差の大きさを観測値と同じ単位で表したもの。±1.96×RMSEの範囲で真の値(神のみぞ知るα+βX)の95%が含まれている
目次 誤差の標準偏差(RMSE):回帰診断統計量|±1.96×RMSEの範囲に真の値が95%【統計学・統計解析講義基礎】
誤差の標準偏差(RMSE):回帰直線のまわりの標準偏差
回帰診断で、R2乗と並んで重要なのが誤差の標準偏差(RMSE)です。
上記のExcelテンプレート右下にRMSEの計算式が入っています。
こちらのExcelテンプレートが欲しい方は以下お問い合わせフォームからリクエスト頂けれは差し上げます。
さて、誤差の標準誤差(RMSE)ですが、これはあてはめた回帰直線のまわりの標準偏差の大きさを観測値と同じ単位で表したものです。
上のテンプレートではRMSEが3.71と算出されましたが、つまり回帰直線Y=29.6+0.324Xという回帰直線を中心に標準偏差が約3.7で分布していると考えればよいわけです。
ただし、この式はあくまで標本から得られたものです。
真の式(母回帰直線といいます)は神のみぞ知るもので、誰にも分かりません。
多分こんな直線の関係なのだな、と思って線を引いているにすぎないのです。
図に示すと、下のような関係です。
切片をα、回帰係数をβとしていますが、このように神のみぞ知る母回帰直線では、係数はギリシャ文字であらわします。
つまり、観測値からa+bXとして算出した予測式は、真の式ではなく推定式である、真の式α+βXは誰も知らないのであるという大前提をまずは理解しましょう。
さて、直線回帰分析では、
@Yの分布が正規分布である
AYの分布においてどのXに対しても分散が等しい(等分散)
の2つが必要条件です。
±1.96×RMSEの範囲に真の値の95%が含まれる
Yの分布は正規性と等分散を仮定しているので、どのXに対しても±RMSEの範囲で真の値(神のみぞ知るα+βX)の68%が含まれていると近似的に言えます。
RMSEのスケールを1.96倍大きくすると、どのXに対しても±1.96×RMSEの範囲で真の値(神のみぞ知るα+βX)の95%が含まれていると近似的に言えます。
得られた回帰式が予測に関して役に立つかどうかについては、 このRMSEが予測の目的を満足するだけの精度を持っているかどうかが重要な判断材料になります。
RMSEとは簡単にいうと回帰直線のまわりのYのばらつきの指標です。これが小さいほど予測精度が高いといえます。
R2乗と並んで重要なので覚えておきましょう。