散布図で見極める! 直線回帰分析の真実【ChatGPT統計解析】
直線回帰分析の適用判断には、統計量(R2乗、RMSE)と共に、散布図を用いた視覚的判断が必須です。アンスコムの例は、異なるデータセットが同様の統計量を持つが、散布図での挙動が全く異なることを示し、直線的でない散布図に無理に直線回帰を適用すべきではないことを警告しています。誤差や異常値を考慮し、データの真の関係性を正確に見極めることが、分析の成功を左右します。散布図確認後、最小二乗法を実行し、診断統計量を評価することが、直線回帰分析の基本手順です。
直線回帰分析を行うべきかどうかの統計学的判断
直線回帰分析をあてはめる際に注意しなければいけないことは、散布図があまりにも見た目で直線でない場合には無理してあてはめないことです。
測定値というのは誤差を伴いますので、綺麗な直線関係になること自体が少ないです。
ではどのような基準で直線をあてはめるべきかどうかを判断するかですが、何よりも見た目が大切です。
見た目でどう考えても直線的でないものを無理に直線であてはめてはいけません。
先に述べましたが真の値というのは神のみ知っていて誰にもわからないのです。
もちろんデータから算出した予測式は推定式であり真の式ではありませんが、では観測値の方が真実に近いかというとそうでもなく、観測値にしても必ず誤差を伴います。
例えばほぼ直線に並んだデータの中に、1点だけ直線から外れた値があったとすると、直線で予測した値の方が、外れた値よりも、神の知る真の値により近い可能性が高いといえます。
ではどっちにしてもウソではないか、と詭弁に思われるかもしれません。
しかし、誤差という魔物と戦いながら神の知る真理の追究に向けて努力するのが統計学の宿命なのですから仕方ありません。
もちろん先に解説したR2乗やRMSEといった診断統計量も判断の指標になります。
しかしこれらはあくまで参考値であり、何より目視の判断が一番大切です。
直線らしからぬ散布図の場合は、別の方法を検討した方がいいでしょう。
例えば明らかに曲線であるとか、波打っているとか、外れた場所に1点だけ点があるとか、これらの場合には無理に直線回帰分析をあてはめることはやめたほうがいいです。
アンスコムの例:散布図による視覚的判断
以下の図はアンスコムの例と言われる有名な事例ですが、直線回帰分析において図の4つの散布図はそれぞれ異なるのに回帰直線やその他の統計量が同じになってしまうという例です。
許されるのは左上だけです。
右上は明らかに曲線なのに無理やり直線をあてはめています。
左下は外れ値によって直線が上に引っ張られ実際のあてはまりからずれています。
右下は1点だけで回帰直線が決定づけられており、たいへん不安定な状況です。
最初に散布図を作成して判断することがいかに大切か、この例からもわかると思います。
直線回帰分析の基本的な流れとして、
@散布図を作成し見た目で問題ないことを確認する
A最小2乗法を実行する
B得られた回帰係数を代入し、残差平方和を確認する
C回帰診断統計量(R2乗、RMSEなど)を確認する
是非、この基本手順を守って頂きたいと思います。
散布図を作成し見た目で問題ないことを確認することが先ずは大切です。
次いで回帰分析の実行、診断統計量の評価、という流れで進めます。