統計学における予測|【統計学・統計解析講義基礎】
統計学における予測(forecast, prediction)
時系列データをもとに
あることがらについて時問に沿って逐次測定されたデータを「時系列」、「タイム・シリーズ」(time series)という。
毎日あるいは毎週、毎月、毎年の円・ドルレート、毎年度の国や地域の人口、さらには毎年あるいは毎月の大気中二酸化炭素の濃度、身近なものでは、毎日の体温、心拍数、さらには心電図、脳波など、きわめて広い範囲にわたる。
時系列データから、しばしば、来年あるいは明日、来週、来月どうなるか知りたいという課題が生じる。
2年後は、という場合もある。今(本年、本日など)までの傾向や変化のルールを分析し、今後もそれが変わらなければ、将来の予想の数字を出すことができる。
これを「予測」という。
英語ではフォアカスト(forecast)、プレディクション(prediction)であるが、フォアカストは「予報」に近い。
天気予報はweather forecastである。
いずれも「予想」であって、ある確率で実現することか期待されるにすぎず、完全的中までを要求されない。
だからこそ統計的予測ができるが、これに対して「予言」(prophecy)は完全に的中しなければならない。
予言と混同されるケースも少なくない。
予測は、現在までのデータから法則やルールをとり出すことが中心となる。
これに用いられる方法として、時間tを独立変数とし、予測される変数を従属変数yとする回帰分析を用いることが圧倒的に多い。
たとえば、表1の外国人世帯数データでは、エクセルの分析ツール「回帰分析」に
と入力すると、関係式(回帰方程式)
y=531.79t+3818.0
が得られる。
t=8を代入すると、y= 8072.32と予測されるが、やや大きすぎる値である。
ところで、このデータにはt=6が欠けているが、上の式でt=6とおくと、y= 7008.74程度であったことがわかる。
データ範囲外のtに対するyを求めることを外挿、範囲内の場合、内挿というが、一般に予測値は回帰方程式を外挿することで求められる。
直線でないケース
このデータでは、4、5、7年度に入って増勢が鈍っている傾向が見られるので、上のような直線の関係式はベストではないかもしれない。
知られているように、tのほかにt2を入れると曲線(放物線)となることを利用し、t2も入れた関係式を候補として採用しよう。
上のtのところに
と入れると、エクセルから
y=−44.98t2 + 891.6t +3278.28
が出力される。
ここでt=8を代入すると、7532.36で先の8072.32より小さい。
このように曲線の関係式を用いると、予測の適正感が得られることが多い。
関連リンク