統計学の不確実性|【統計学・統計解析講義応用】
不確実性
自然科学、社会科学の分野を問わず、あらゆる分野において、「不確実性」について扱うことが不可欠となっています。
たとえば、日本人の意識調査を行う場合、分析対象とする集団全体を母集団と呼びますが、この場合、日本人全体が母集団となります。
しかしながら、母集団全体について知ることは、多くの場合困難です。
全員を調査するとなると小さな子供ま除いても1億人程度を調査する必要があることになります。
このような場合、母集団からその一部を選び出し、選び出された集団について調査を行い、母集団について推定するということが行われます。
母集団から選び出されたものを標本(sample)、選び出すことを標本抽出と呼びます。新聞社やテレビ局が行う世論調査では、通常、数千人程度を選び、面接や電話などによる調査を行って結果を集計しています。
しかしながら、標本は母集団のごく一部です。標本が母集団をよく表しているかどうかは、どのような標本を抽出するかに依存し、不確実性やばらつきの問題を生じます。
母集団を1億人として、標本を1,000人抽出したとすると、10万分の1を調査したにすぎないし、大規模な調査を行って1万人をちょうさしても1万分の1を調査したにすぎません。
私たちが調査するのは標本ですが、知りたいのはあくまでも母集団についてです。
また、ファイナンスの分野では、将来の不確実性を扱いますし、量子力学などでは、電子の挙動はすべて不確実性を伴っています。
このような不確実性やばらつきに対応するためには、数学的な道具として、どうしても確率や確率分布、確率変数の基礎的な知識が必要となります。
不確実性と統計学
統計学は不確実性のもとで結論を引き出す一つの手段です。
それによって、小さなグループ(標本)についての知識を数値化し、より大きなグループ(母集団)へと一般化を試みる際、そこのどの程度の誤差が含まれるかを評価し、認識することが可能になります。
統計解析はまず標本の記述からはじまります。
図を描いてみることは、標本を記述したりその他の分布と比較したりする場合に、非常に有効な方法であることがわかります。
しかし、私たちにとってさらに興味深いのは、標本の中心化の傾向を表す尺度や、そのばらつき具合を表す尺度を得ることです。
こういった尺度(量的変数の)の中で最も重要なものは、算術平均と標準偏差です。
これらは特に正規分布、すなわち左右対称でつりがねのような形をした分布曲線を定義する場合に重要です。
ひとたび平均と標準偏差が得られたならば、Z単位を用いて、2つの異なる分布からとられた値を比較することもできますし、また、観測値の何パーセントが、その変量のさまざまな値の上下に現れるかを推定することもできます。
さらには、標本から作られた統計量に基づき、母集団のパラメータを推測することも可能です。
すなわち標準偏差という概念によって、母集団の真の値(たとえば平均や比率の値)が含まれると考えられる信頼区間を決定することができます。
通常は、真の値の存在に95%確信がもてるような範囲や、99%確信がもてるような範囲が用いられます。
同様な原理に基づき、二つ(あるいはそれ以上)の標本を比較し、それらが同一の母集団からとられたものとみなしうるほど似ているか、を問題にすることができます。
それらの間の差は、母集団における本当の差を示唆するほど大きいものでしょうか。
とすれば、今後同様な方法で一対の標本を選べば、そこにおいてもこのような差はくり返されることになります。
そこで、その標本が同一の母集団からとられたものであり、その差は純粋に偶然だけから生じたものであるという帰無仮説を立てます。
そして検定を行うことにより、この仮説の起こりやすさを判断することができます。
それほど差の大きな二つの標本が一つの母集団から得られる確率が5%より小さいことが判明したならば、その仮説は棄却してもよいことになります。
より注意深くありたいと思うならば、同一の母集団から得られる確率が1%以下であるほど差が大きくないかぎり、その帰無仮説を棄却しない(その差を本当の差とは認めない)ことにすればよいのです。
仮説が棄却されるような差は有意であるといわれています。たとえそれが実際的な意味で何ら重要でなくともよいのです。
複数個の標本のいずれかに有意な差があるか否かを決定するための検定も存在しますが、それは分散分析であり、グループ間の分散とグループ内の分散を比較します。
量的変数ではなく、質的な変数を扱う場合、二つの標本間の平均の差に代わって、比率に有意な差があるかどうかを問うことになります。
その場合には、カイ2乗検定と呼ばれるノンパラメトリックな検定が用いられます。
これは、偶然だけにより期待される観測値の頻度と実際に現れる頻度とを比較するものです。
こういったノンパラメトリックな手法は、質的変数を扱う場合には不可欠ですが、それ以外にも母集団が正規分布に従っているか否かが確かでない場合にも薦められます。
最後に、互いに関連のある2つの変数についての標本が対になって得られた場合、それらの関係に興味をもつことが多いです(たとえば人の身長と体重の関係など)。
相関とは、このような関係を測るためのもので、相関係数によってその強さを表します。
相関係数はー1から1までの間の値をとります。
散布図は相関を表すのに最も有用な方法ですが、標本の中のいくつかの個体が等しい値をとるような場合には、散布図のかわりにある種の表を用いる必要があります。
回帰分析では、標本にみられた関係を用いて、母集団において一方の変数の値が得られた場合に、それに対応する他方の変数の値を予測することができます。
こういった予測は、相関の強さが増すにつれて正確になると考えられます。
ただし、相関がきわめて強く、予測が正確であったとしても、その事実から、一方の変数が他方により引き起こされているという因果関係を証明することはできません。
たとえ因果関係の存在が理屈に合っていたにしても、相関があることと因果関係があることは異なります。
相関がみられるのは、変数Xが変数Yを引き起こしているかもしれませんし、あるいはその反対かもしれません。
あるいは、XもYも共に他の変数Zにより決定されているためかもしれません。さらには、その関係は偶然のもたらした結果かもしれません。
統計学は、これらのストーリーに沿った推論に対して、データがそれを支持したり否定したりします。しかし、絶対的な証明は不可能です。
関連記事