統計学における分散分析法の考え方|【実験計画法の統計学・統計解析】
実験結果を正しく解釈するには、分散分析法が必要です。しかし、その理論は初心者にとって難しい。そこで、分散分析法の基本を平易な言葉で説明しました。分散分析法は、1つまたは複数の因子の異なる水準が特性値の平均に与える影響を調べる統計手法であります。分散分析は、主効果や交互作用などの効果を統計的に検定し、結果は分散分析表にまとめられます。実験計画においては、因子と水準を定義し、その影響を調査します。分散分析はデータの変動を要因成分に分解し、因子の効果を検定する手法です。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
実験の結果を正しく解釈するには、分散分析法によらなければなりません。
しかし、分散分析法の基礎となる理論は初心者にとって難解です。
そこで、以下で分散分析法の成り立ちをできるだけ平易な表現で解説しました。
分散分析法とは
1つもしくは複数個の因子の異なる水準が特性値の平均にどのような差をもたらすかを統計的に調べる手法です。
分散の分析ではなく、分散を用いた平均値の分析です。
因子が1つの場合には一元配置分散分析、2つの場合には二元配置分散分析といい、それ以外にも反復測定分散分析など、データの取り方に応じた分析法があります。
分散分析は主効果、交互作用などの効果を線形モデルの形に表し、誤差の正規性の仮定の下で最小2乗法により各効果を推定し、その有意性を統計的に検定します。
結果は分散分析表の形にまとめられます。手計算の時代に開発された手法ですが、現在でも依然として最有力の分析手法です。
分散分析表
分散分析における平方和および自由度の分解ならびにそれらの値に基づく検定の手順と結果を表の形にまとめたものです。
手計算の時代には計算のチェックもできるということで分析の重要なツールでしたが、コンピュータでの計算が主流の現在でも分析結果の解釈には欠かせない表となっています。
回帰分析などでも分析結果の要約として分散分析表が用いられます。
観測値をモデルへの当てはまり部分と残差部分に分けるという視点は統計分析全てに共通するものです。
実験計画法と分散分析
実験を行う場合、目的とする特性値に影響のある変動要因の中から、その実験にとり上げた原因を因子(factor)とよびます。
その因子を量的・質的に変える条件を水準(level)といいます。
通常、因子はローマ字の大文字で表し(例えばA, B, C)、水準は数字の添え字により表します(例えばA1, B1, C1)。
ある薬品の合成反応で、合成収率(%)に対する反応温度(因子A)の影響を調べることになりました。反応温度としては、
A1: 50度、A2: 55度、A3: 60度、A4: 65度
の4水準をとり、各水準ごとに5回ずつの繰り返し実験を行うことにしました。
全実験回数は20回となりますが、この実験順序をランダムに実施した結果、以下表のような合成収率のデータを得ました。
この実験では、因子である反応温度が4水準とられています。
いま、表のデータを反応温度の水準別に図示すると、以下図のようになります。
この図から明らかなように、反応温度がかわると収率のデータは変化します。
しかし、同じ反応温度でも収率が一定になるのではありません。
例えば、A1:50度の場合では、最低53.0%から最高54.0%までばらついています。
つまり、このバラツキの中には、
@反応温度の水準を変えたためのバラツキ
A同じ反応温度のもとで実験をくり返したときのバラツキ
とが、混じり合っていることがわかります。
いま、この実験全体のデータのもっているバラツキを総変動とよび、反応温度を変えたためにデータに与えられるバラツキの部分を級間変動(または因子間変動)、同じ反応温度の中で実験を繰り返すことによってデータに与えられるバラツキの部分を級内変動(または誤差変動)と呼ぶこととし、これらを図のように表すことができます。
ここで、もし反応温度の水準を変えたことによってデータのバラツキが大きくなったとすれば、各変動の割合は図のように級間変動が大きくなるであろうし、反応温度をかえてもあまりデータに影響がないのなら、以下図のように級内変動の割合が大きくなるでしょう。
ここで、因子の水準を変えたことにより効果があるということは、各水準の中でのデータのバラツキ、すなわち誤差に対して、水準を変えたため影響が認められるということです。
したがって、因子の効果は、いつも因子の水準の中でのバラツキ(ここでは級内変動)と比較して決めることが必要になるのです。
そこで、いま、適当な統計量を用いて実験データのバラツキを図のように分解することができるならば、両変動の大きさを比較することによって、反応温度を変えたことによる影響、一般には因子の効果、これを主効果(main effect)といいますが、これを調べることができます。
このように、データのもっている変動を、因子や誤差などの要因成分に分けて因子の効果を検定する方法を、分散分析法といいます。
関連記事