分散分析(ANOVA):誤差の分析手法|測定値全体の誤差平方和を分解【統計学・統計解析講義基礎】
分散分析(Analysis of Variance; ANOVA)は測定値の誤差を分析する手法である。全体の誤差平方和を、実験間の誤差平方和と実験内誤差平方和に分解しそれぞれ計算する
分散分析(ANOVA)は測定値の誤差の分析
測定値には誤差を伴います。その誤差を分析する方法が、分散分析(Analysis of Variance; ANOVA)です。
一元配置分散分析(one-way ANOVA)の例として、ある細胞培養用の40℃に設定した振とう機の温度測定を4回繰り返し行いました。
この4回の繰り返し測定を3日間にわたって実施した(初日は実験1、2日目は実験2、3日目は実験3)ところ、以下の結果が得られました。
さて、これらのデータから何が言えるでしょうか。
先ず平均値を見てみると、3回にわたる実験で、それぞれの平均値は概ね40〜41度で誤差(ばらつき)が小さいことがわかるでしょう。
しかし、個々の値を見てみると、結構誤差(ばらつき)が大きいことわかります。
特に実験2などは、1回目が45.52度で、3回目が36.29度とかなり異なっています。
さて、この誤差(ばらつき)を、客観的にどう説明したらよいでしょうか。
実はこれは、
観測値=真の値+誤差
という簡単な一次のモデル式で説明することができます。
真の値というのは神のみぞ知る値で、これを仮に振とう機の設定温度40℃としましょう。
しかしながら、実際の測定温度は、温度計の性能、温度計の読み取り、測定環境、当日の室温、測定者の手技など、様々な誤差要因に左右されますので、決して唯一無二の同じ40℃にはなり得ないわけです。
しかしそうも言っておられず、温度があまりにもばらつくと、細胞の培養環境が変わるため、その後実施する細胞実験の精度に悪影響を及ぼす可能性があります。
ではどうすればいいのでしょうか。
先ずは誤差の原因を分析することです。
すると、誤差として、1回の実験のなかで発生する誤差(4回の繰り返しの誤差)と、各実験(実験1〜3)の間の誤差、が考えられます。
すなわち、
観測値=真の値+実験間の誤差+実験内の誤差
と誤差を分解して考えることができるわけです。
もし実験間の誤差が大きければ、各実験日の室温を一定に保とうとか、実験日ごとに測定者を変えない、などの次の対策が考えられます。
また、実験内の誤差が大きければ、例えば測定を朝、昼、夜のように間隔を空けるのではなくある時間内にまとめて4回測定しようとか、電源をオンにしてから1時間以上経って安定してから測定しよう、などの次の対策が考えられます。
測定値は真の値から必ず誤差を伴います。
先ず測定値の誤差の原因を分析してみましょう。
実験間と実験内、それぞれの誤差の要因について考察してみましょう。
分散分析(ANOVA):全体の誤差平方和を分解
では、実験間誤差と実験内誤差をどのように計算したらよいでしょうか。
まず、データを図のように分解します。
つまり、各実験(各行)の平均値と全部の平均値との差により実験間誤差を推定します。
そして個々の値と各実験(各行)の平均値との差により実験内誤差を推定します。
全体の誤差は、個々の値と全部の平均値との差により推定します。
すると、以下の式が成立します。
全体の誤差平方和=実験間の誤差平方和+実験内誤差平方和
そして、帰無仮説:実験間に差がない とする仮説検定を行います。
以下のようにExcelで簡単に計算し検定結果を算出することができます。
実験間の誤差平方和は、実験間誤差の2乗和で、SUMSQという関数で計算できます。
実験内の誤差平方和は、実験内誤差の2乗和で、これもSUMSQという関数で計算できます。
全体の誤差平方和は、全データの全平均値との差の2乗の和で、これはDEVSQという関数で計算できます。
Excel関数のSUMSQは単なる2乗の和であるのに対し、DEVSQは全平均値を引いた上での2乗の和を計算する関数です。便利なので覚えておきましょう。
そして、平方和を自由度で割って平均平方、すなわち分散を計算し、これらの比がすなわちF値です。
このF値をF分布表に照らして有意かどうか判定することもできますが、FDISTという関数を使えば簡単にp値を計算できます。
結果としてp=0.907となり、帰無仮説:実験間に差がない、が棄却されなかったことになります。
棄却されなかったので、実験間に差があったと積極的に主張することはできないということです。
検定結果にばかり注目がいきがちですが、分散分析では平方和と平均平方(分散)に着目することも重要です。
平方和を見ると、全体が80.31に対して実験間が1.73と、非常に小さいことがわかります。
平均平方(分散)を見ると、実験内が8.73に対して実験間0.86と、非常に小さいことがわかります。
つまり実験内誤差の方が圧倒的に大きいということです。
この結果から、実験日ごとの条件を厳密にコントロールするよりは、毎回の実験の条件をしっかりコントロールすることの方が大切である、という次のアクションに結びつけることができます。
これがいわゆる一元配置分散分析で、実験間、実験内に限らず、一般に繰り返しを伴う群間の誤差の構造を調べるに適した方法です。
先ずは全体の誤差を、実験間誤差と実験内誤差に分解しましょう。
一元配置分散分析は、群間に差がない、という帰無仮説に対する仮説検定です。
検定の結果だけでなく、平方和や分散にも注目し、誤差の構造について考察しましょう。