散布図で見極める! 直線回帰分析の真実【ChatGPT統計解析】
直線回帰分析の適用判断には、統計量(R2乗、RMSE)と共に、散布図を用いた視覚的判断が必須です。アンスコムの例は、異なるデータセットが同様の統計量を持つが、散布図での挙動が全く異なることを示し、直線的でない散布図に無理に直線回帰を適用すべきではないことを警告しています。誤差や異常値を考慮し、データの真の関係性を正確に見極めることが、分析の成功を左右します。散布図確認後、最小二乗法を実行し、診断統計量を評価することが、直線回帰分析の基本手順です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
直線回帰分析を行うべきかどうかの統計学的判断
直線回帰分析をあてはめる際に注意しなければいけないことは、散布図があまりにも見た目で直線でない場合には無理してあてはめないことです。
測定値というのは誤差を伴いますので、綺麗な直線関係になること自体が少ないです。
ではどのような基準で直線をあてはめるべきかどうかを判断するかですが、何よりも見た目が大切です。
見た目でどう考えても直線的でないものを無理に直線であてはめてはいけません。
先に述べましたが真の値というのは神のみ知っていて誰にもわからないのです。
もちろんデータから算出した予測式は推定式であり真の式ではありませんが、では観測値の方が真実に近いかというとそうでもなく、観測値にしても必ず誤差を伴います。
例えばほぼ直線に並んだデータの中に、1点だけ直線から外れた値があったとすると、直線で予測した値の方が、外れた値よりも、神の知る真の値により近い可能性が高いといえます。
ではどっちにしてもウソではないか、と詭弁に思われるかもしれません。
しかし、誤差という魔物と戦いながら神の知る真理の追究に向けて努力するのが統計学の宿命なのですから仕方ありません。
もちろん先に解説したR2乗やRMSEといった診断統計量も判断の指標になります。
しかしこれらはあくまで参考値であり、何より目視の判断が一番大切です。
直線らしからぬ散布図の場合は、別の方法を検討した方がいいでしょう。
例えば明らかに曲線であるとか、波打っているとか、外れた場所に1点だけ点があるとか、これらの場合には無理に直線回帰分析をあてはめることはやめたほうがいいです。
アンスコムの例:散布図による視覚的判断
以下の図はアンスコムの例と言われる有名な事例ですが、直線回帰分析において図の4つの散布図はそれぞれ異なるのに回帰直線やその他の統計量が同じになってしまうという例です。
許されるのは左上だけです。
右上は明らかに曲線なのに無理やり直線をあてはめています。
左下は外れ値によって直線が上に引っ張られ実際のあてはまりからずれています。
右下は1点だけで回帰直線が決定づけられており、たいへん不安定な状況です。
最初に散布図を作成して判断することがいかに大切か、この例からもわかると思います。
直線回帰分析の基本的な流れとして、
@散布図を作成し見た目で問題ないことを確認する
A最小2乗法を実行する
B得られた回帰係数を代入し、残差平方和を確認する
C回帰診断統計量(R2乗、RMSEなど)を確認する
是非、この基本手順を守って頂きたいと思います。
散布図を作成し見た目で問題ないことを確認することが先ずは大切です。
次いで回帰分析の実行、診断統計量の評価、という流れで進めます。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
アンスコムの例について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
アンスコムの例とは、統計学の世界で有名な4つのデータセットのことで、見た目は全く違うのに、平均や分散、相関係数などの統計的な特徴がほぼ同じになるという不思議な現象を示しています。これは、フランシス・アンスコムが統計の分析では数字だけでなく、データを図にして見ることの大切さを教えるために作ったものです。例えば、あるデータセットはきれいな直線上に点が並んでいるのに対し、別のデータセットはまるで曲線のよう、また別のものは全くバラバラに点が散らばっています。でも、これら全てで平均や分散、相関係数を計算すると、ほとんど同じ数字が出るんです。アンスコムの例から学べるのは、データを分析するときは数字だけを信じず、実際のデータの形や分布もしっかりと見るべきだということです。数字だけでは見えない、大切な情報がデータの中には隠れているかもしれないからです。これは、データ分析をする上で非常に重要な教訓なんですよ。