Python・R・エクセルによるデータサイエンス | 統計解析講義

統計学におけるモデルと説明【統計解析講義基礎】 | 統計解析 - Python・R・エクセルを使った講義で最速マスター

統計学におけるモデルと説明【統計解析講義基礎】

統計学におけるモデルと説明【統計解析講義基礎】


統計学におけるモデルと説明【統計解析講義基礎】

 

統計学は、多数のデータからなる集団に対して、その集団の傾向を読み取るためのものです。

 

こういう科学が発明され発展してきたのは、目の前の現象がどんなしくみで起きているのかを理解したいという欲求を、人がつねにもってきたからです。

 

この「しくみの理解」こそが「科学」であり、しくみを理解することによって、未知の現象の行く末を予測することができます。

 

人間は、多数のデータを一瞥しただけでその意味するところやしくみを理解するほど、賢くはありません。

 

そこで、データに対して計算を行うことで、多数のデータをもつ集団を理解しようと努めてきました。

 

割合による理解はその第一歩ですし、あるいはよく知られた「平均」も、データをもつ集団に対して計算を行うことで、その傾向をつかもうというものです。

 

しかし、このような計算だけでは、そのデータを生み出した現象の「しくみ」を知るまでには至りません。

 

そこで、人間が理解できる程度の言葉や数式を考えて、その言葉や数式でしくみを表せると仮定し、それを使って現象を説明する方法をとります。

 

このような言葉や数式をモデルといいます。

 

たとえば、化学式は、人が考えたモデルの典型的な例です。水素と酸素が反応すると水ができるという実験結果だけでは、それ以上のことは何もわかりません。

 

しかし、すべての物質が原子・分子から構成されるとして、水素や酸素の分子が分解・結合するというモデルを考えて、それを使ってこの観察結果を説明することで、他の化学反応も同様に説明でき、また未知の化学反応も予想することができます。

 

この考え方は、データの組同士の関係を分析する「相関分析・回帰分析」では、さらに有効です。

 

たとえば、日本の各都市について、緯度と年平均気温というデータの組を集めたとします。

 

このデータを並べてみても、なんとなく「北へ行けば寒くなる」ということしかわかりません。

 

しかし、ここで「緯度と気温の関係が、直線のグラフで表せる」というモデルを用いると、「1度北へ行くと何度寒くなるのか」を予想することができます。

 

次ページの図は、横軸に緯度、縦軸に気温をとり、各都市を点として平面上に配置して表したもので、散布図といいます。

 

この図には、「緯度と気温の関係が、直線のグラフで表せる」というモデルを用いた回帰分析によって、直線のグラフが描かれています。

 

各都市の気温が大きくばらついているのに比べて、直線のグラフからのばらつきは、各都市を表すデータがほぼ直線上に並んでいるので、ずっと小さくなっています。

 

したがって、「直線のグラフで表せる」というモデルは、緯度と気温という現象を表すのに適切なモデルであるということができます。

 

このことを、統計学では「直線のグラフによって、気温のばらつきを説明している」といいます。

 

もしも、気温のばらつきを緯度によって説明するモデルが、十分に適切でなければ、データを説明する他の要因、たとえば「標高」を考えて、気温のばらつきを緯度と標高で説明することもできます。

 

この手法は重回帰分析とよばれています。

セミナー詳細こちら                    解析ご相談こちら


 

統計学におけるモデルと説明【統計解析講義基礎】

統計学におけるモデルと説明【統計解析講義基礎】

統計学におけるモデルと説明【統計解析講義基礎】