一元配置分散分析で実験データを定量評価!【ChatGPT統計解析】
一元配置分散分析では、異なる実験日間のデータのばらつきを分析します。この例では、朝昼夕の3回の実験結果を2日間で取得しました。データを見ると、同一実験日内のばらつきが大きく、実験日間の平均の差は小さいことがわかります。分散分析を通じて、実験日間のばらつきと実験内のばらつきを定量的に評価し、F値とp値を計算します。結果、実験日間の差は小さく、p値は0.9752で帰無仮説は棄却されず、実験日間に有意な差はないことが示されました。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
一要因の繰り返しデータにおける一元配置分散分析
一要因の繰り返しデータにおける一元配置分散分析を以下の事例で行ってみましょう。
朝昼夕と1日3回行う実験を、2日間行ったところ以下の結果が得られました。
データは一要因(実験日)の3回繰り返しです。
実験日朝昼夕平均
1日目511288588
2日目115479987
先ず、このデータを見ただけでわかることがあります。
それは、朝昼夕の3回のばらつき(同一実験日内のばらつき)が大きく、
実験日間のばらつきは小さい(平均が88と87)ということです。
これを定量的に表現するのが一元配置分散分析です。
実験日朝昼夕平均全平均
1日目51128858887.5
2日目115479987
先ず、実験間誤差について考えてみます。
平均と全平均との差が、実験間誤差を反映する成分ですので、以下のようになります。
実験日朝昼夕
1日目0.50.50.5
2日目-0.5-0.5-0.5
次いで、実験内誤差について考えてみます。
個々の値と平均との差が、実験内誤差を反映する成分ですので、以下のようになります。
実験日朝昼夕
1日目-3740-3
2日目28-4012
一元配置分散分析表の作成
ここまで準備が出来たら、次に分散分析表を作成します。
先ず、以下のよう表枠を作成します。
自由度は、1を引くことにより算出されます。
実験は2日行っているので、実験間は2−1=1 となります。
実験内は、朝昼夕の3回なので、3−1=2ですが、これを2日行っていますから、
(3−1)×2=4 となります。
全体の自由度は、データが全部で6個ですから、6−1=5 となります。
次いで平方和ですが、実験間平方和は、実験間誤差の成分の平方和になります。
(0.5)^2+(0.5)^2+(0.5)^2+(-0.5)^2+(-0.5)^2+(-0.5)^2=1.5 となります。
実験内平方和は、実験内誤差の成分の平方和になります。
(-37)^2+(40)^2+(-3)^2+(28)^2+(-40)^2+(-12)^2=5506 となります。
全平方和は、これらの和なので、1.5+5506=5507.5 となります。
なお平方和の計算をExcelで行う場合には、=SUMSQ(範囲)とすると、指定した範囲の平方和を計算してくれるので、SUMSQというExcel関数が便利です。
分散は、平方和を自由度で割って求めます(全体は不要)。
F値は、実験間分散を実験内分散で割ります。
p値は、第1自由度が1、第2自由度が4のF分布のF値より上側確率を計算します。
Excel関数ではFDISTという関数で計算できます。
引数は、=FDIST(F値、第1自由度、第2自由度)で計算できます。
以上を実行すると、以下の分散分析表が得られます。
平方和を見ると、実験間が1.5と小さいのに対し実験内は5506と大きいです。
最初の見た目通りということですが、この平方和により見た目を定量的に表現することができます。
F検定の帰無仮説は、「実験間に差がない」ですが、p=0.9752 ですので、この帰無仮説は棄却されません。
統計ソフトでは、上のような分散分析表を瞬時に出力することができますが、それぞれの項目をどのように計算したかまでは教えてくれません。
上の例で構いませんので、実際にExcelでこのような分散分析表を作成すると、分散分析表の出力の意味を肌感覚で理解することができます。
ChatGPTに聞いてみた
プロンプト
あなたは最高のデータサイエンティストです。
分散分析表の出力の意味について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度
ChatGPTの回答
分散分析表(ANOVA)は、異なるグループ間でデータがどのように違うかを見るための方法です。この表を使うことで、グループ間の平均値が偶然に違うのか、それとも本当に違いがあるのかを判断できます。分散分析表には主に「群間」と「群内」という2つの部分があります。「群間」は異なるグループ間の平均値の違いを見ます。「群内」は同じグループ内のデータがどの程度ばらついているかを示します。表の結果を見て、p値という数値をチェックします。p値が小さい(例えば0.05未満)場合、グループ間の違いは偶然ではなく、実際の違いがあると考えられます。これにより、例えば異なる治療法が患者に与える効果に実際に差があるかどうかなどを判断できるのです。