年齢と血圧の関係を解き明かす!回帰分析の魔法【ChatGPT統計解析】
統計学では、2つの変量の関係を関数関係として表現することがある。例えば、年齢と血圧の関係を「血圧=年齢+90」や「血圧= 1.38×年齢+ 65.1」と表すことができる。ここで年齢は独立変数、血圧は従属変数と呼ばれる。この関係式は直線を表し、傾きと切片によって決まる。データからこの関係式を求める手法を「回帰分析」といい、最小二乗法を用いて最適な直線を求める。この手法は、資本金と従業員数の関係などにも応用される。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
統計学における関係式のあてはめ(fitting the equation)
年令から血圧を知るための式
2つの変量(統計学では「変数」を「変量」ということがある)の間の関係で、一方が他方から決まるときを、関数関係ということはよく知られている。
このようなことの例は無数にあるが、わかり易い例として、年齢と血圧の関数関係を、
血圧=年齢+90
で示すとき(この真偽は別として)、血圧は年齢の関数となっている。
また、ある統計学の教科書には、データ分析から、
血圧= 1.38×年齢+ 65.1
という結果が載せられている。
これらの場合、年齢を「独立変数」(Xで表す)、血圧を「従属変数」(yで表す)という。
「従属」とは、yがXに従って決まることを意味している。
数学的に厳密に書くと、
y=1.38 x + 65.1
であるが、よく知られている通り、この式は「直線」を表す。
ここで1.38はこの直線の「傾き」、65.1はX=0に対するyの点、いいかえると、y軸との交点、つまりy軸を切る点で、用語としてy軸上の「切片」といわれる。
これらから、まず、X(年齢)からy(血圧)が決まること、年齢が1歳進むと血圧は1.38上昇すること、0歳児の血圧は65.1であること(ただし、乳児にもこの式があてはまるとして)、などがわかる。
この関数関係の式は、年齢に対する血圧の算出に使えて、x = 20(歳)なら対応する血圧はy = 92.7となるなど、いろいろと便利な用法がある。
なお、ここでは直線の関係式だけを扱っている。
人気商品の普及のように時間に対して、倍々ゲームのように爆発的に増加するケースでは直線的関係式は成り立たない。
回帰分析を用いる
問題はこの関係式がどのようにして得られたか、である。
例をかえて、私鉄大手16社の資本金と従業員数の関係を見てみよう。
このデータにおいて、資本金をX、従業員数をyとすると、資本金から従業員数が決まると考えるのが順当であろう。
そこで、y=OOx +△△のような関係式が成立すると考えてよい。
OO、△△は傾き、切片だが、それぞれb、aと表すと、
y=bx+a
が求めるべき関係式である。
この式をデータから求めること(つまりb、aを定めること)を、データへの「関係式のあてはめ」という。
いいかえると、あてはまる直線y=bx+aを引くことである。
このあてはめを実行して関係式を出すのは「回帰分析」とよばれる統計的方法だが、その中心に「最小二乗法」といわれる以下の考え方がある。
資本金と従業員数の関係はパラパラで、一つの直線が完全にあてはまることはありえない。
そこで、できるだけよくあてはまるものを探すことにする。
このとき「できるだけよくあてはまる」の意味だが、たとえば東急について、資本金から従業員数が〇人と決まったとすると、〇は7,028とは異なった数であろう。
7,028と〇が違っている分だけあてはまってない。
このとき(7,028−〇)の2乗だけ「あてはめミス」が出ていると考える。
このあてはめミスの16社分の合計がなるべく小さい方がよい。
この考え方からb、aは次のように決まる(計算はエクセルによる)。
傾き b = 0.062
切片 a=3,189.92
関係式 y= 0.062x+3,189.92
(従業員数(人) = 0.062×資本金+ 3,189.92)
これによると東急(たとえば)の従業員数は9,806人で、実際の従業員数はこれより2,788人少ない。
ところで、ここでは資本金から従業員数を出したが、従業員数から資本金を出す考え方もまったく不可能ではないのである。
なお、回帰分析の用語では、b、a、関係式は、それぞれ「回帰係数」、「定数」、「回帰方程式」といわれる。
b、aの出し方は以下の通り:
関連リンク