時系列データで未来予測:統計学の活用法【ChatGPT統計解析】
統計学における予測とは、時系列データを用いて将来の値を予測することであり、これには「フォアカスト」(forecast)や「プレディクション」(prediction)が含まれます。時系列データは、一定の時間間隔で収集されたデータで、例えば為替レートや人口、大気中の二酸化炭素濃度、体温などが該当します。予測には、現在までのデータから法則やルールを抽出し、これに基づいて将来の値を推定する回帰分析がよく使われます。回帰方程式は直線の場合もあれば、データの増減に合わせて曲線になる場合もあります。予測値はデータ範囲外の値を予測する「外挿」や、範囲内の値を推定する「内挿」によって得られます。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学における予測(forecast, prediction)
時系列データをもとに
あることがらについて時問に沿って逐次測定されたデータを「時系列」、「タイム・シリーズ」(time series)という。
毎日あるいは毎週、毎月、毎年の円・ドルレート、毎年度の国や地域の人口、さらには毎年あるいは毎月の大気中二酸化炭素の濃度、身近なものでは、毎日の体温、心拍数、さらには心電図、脳波など、きわめて広い範囲にわたる。
時系列データから、しばしば、来年あるいは明日、来週、来月どうなるか知りたいという課題が生じる。
2年後は、という場合もある。今(本年、本日など)までの傾向や変化のルールを分析し、今後もそれが変わらなければ、将来の予想の数字を出すことができる。
これを「予測」という。
英語ではフォアカスト(forecast)、プレディクション(prediction)であるが、フォアカストは「予報」に近い。
天気予報はweather forecastである。
いずれも「予想」であって、ある確率で実現することか期待されるにすぎず、完全的中までを要求されない。
だからこそ統計的予測ができるが、これに対して「予言」(prophecy)は完全に的中しなければならない。
予言と混同されるケースも少なくない。
予測は、現在までのデータから法則やルールをとり出すことが中心となる。
これに用いられる方法として、時間tを独立変数とし、予測される変数を従属変数yとする回帰分析を用いることが圧倒的に多い。
たとえば、表1の外国人世帯数データでは、エクセルの分析ツール「回帰分析」に
と入力すると、関係式(回帰方程式)
y=531.79t+3818.0
が得られる。
t=8を代入すると、y= 8072.32と予測されるが、やや大きすぎる値である。
ところで、このデータにはt=6が欠けているが、上の式でt=6とおくと、y= 7008.74程度であったことがわかる。
データ範囲外のtに対するyを求めることを外挿、範囲内の場合、内挿というが、一般に予測値は回帰方程式を外挿することで求められる。
直線でないケース
このデータでは、4、5、7年度に入って増勢が鈍っている傾向が見られるので、上のような直線の関係式はベストではないかもしれない。
知られているように、tのほかにt2を入れると曲線(放物線)となることを利用し、t2も入れた関係式を候補として採用しよう。
上のtのところに
と入れると、エクセルから
y=−44.98t2 + 891.6t +3278.28
が出力される。
ここでt=8を代入すると、7532.36で先の8072.32より小さい。
このように曲線の関係式を用いると、予測の適正感が得られることが多い。
関連リンク