Exploratoryツールで分散分析(ANOVA)と検定を実施してみる
分散分析(ANOVA)とは
分散分析(ANOVA)とは、要因(因子)の効果の有無を実験結果から判定する分析です。主に3群以上の平均の差が有意かどうかをF値を求めて検定(F検定)して判断します。※2群の場合は、t検定でも良いです。また、この要因がいくつあるかによって、一元配置分散分析、二元配置分散分析または多元配置分散分析に分かれます。
今回は一元配置分散分析を実施する
今回は、下記のデータを扱います。
このデータで、肥料の違いによって収穫量が異なるかどうかを検定します。この肥料が「要因」に該当します。この「要因」の数は今回は1つとなります(∴一元配置分散分析)。
なお、各肥料ごとで区切られた区画が4つありますが、この4つを一つのグループ(群)として捉えます。今回は、3グループ(3群)です。
上記の肥料A・B・Cのそれぞれの平均を出すと、A:48, B:57, C:54という収穫量になります。一見すると肥料Bがもっとも収穫量が高いため、結果、肥料Bがもっとも効果が高かった、といえそうですがどうでしょうか。逆に、この効果はあくまで偶然だ(統計誤差)、となるでしょうか。
Exploratoryツールで分散分析(ANOVA)と検定を実施する
今回は、下記の手順で対応します。
① Exploratoryツールで今回の対象データEXCELファイルを読み込む
② データ加工する
③ アナリティクスのタイプ:統計的検定(分散分析(ANOVA))を選択・設定する
④ 解釈する
⑤ 判定する
それでは早速試してみましょう!
① Exploratoryツールで今回の対象データEXCELファイルを読み込む
プロジェクトを新規作成したのち、下記のように対象ファイル(Excelファイル)を取り込みます。
下記のように、インポートされていればOKです。そのまま、「保存」をClickしてください。
② データ加工する
Exploratoryツールのアナリティクス>タイプ:統計的検定の分散分析(ANOVA)を実現可能とするために、データ構造を下記のように加工します。
下記のように、縦変換した後のディメンション名とメジャー名を決定します。
下記のように設定されていればOKです。これでデータ加工は完了です。
③ アナリティクスのタイプ:統計的検定(分散分析(ANOVA))を選択・設定する
まず、アナリティクスメニュー>タイプ:統計的検定の分散分析(ANOVA)を選択します。つぎに、目的変数には要因の効果としての「収穫量」を設定、説明変数には要因となる「肥料名」をそれぞれ設定して、最後に実行ボタンをClickします。
下記は、サブメニューの「統計量」を選択している状態です。
◆ 統計量
ここでは、「平均値」と信頼区間(上限・下限)が重要な値といえます。
その他のサブメニューをざっと確認していきましょう。
◆ サマリー
・肥料名の平方和 = グループ間変動 と呼びます(168)
・Residualsの平方和 = グループ内変動 と呼びます(56)
・肥料名の平均平方 = グループ間変動の不偏分散 = 平方和 / 自由度 = 168/2 = 84
・Residualsの平均平方 = グループ内変動の不偏分散 = 平方和 / 自由度 = 56/9 = 6.22
◆ エラーバー
・信頼区間付きのエラーバーで見た場合、肥料Aと肥料Bに関してはエラーバーの重なりもなく、平均の差に意味があるといえそうです。
◆ 密度曲線
密度曲線で見た場合、先ほどと同様、肥料AとBは異なる分布といえそうです。
④ 解釈する
(1)不偏分散の大小で判断する
要因に対する効果の有無を判断するにあたり、サマリーで表示された「平均平方」= 平方和 / 自由度 = 不偏分散 を使って大小判定可能です。
具体的には、グループ間変動 / 自由度(=グループ間の偏差※1の不偏分散s12)と、グループ内変動 / 自由度(=グループ内の偏差※2の不偏分散s22)を比較します。
◆ 要因について、効果がある → S11 > S22
◆ 要因について、効果は認められない(偶然)→ S11 < S22
※1 グループ間の偏差と平方和と自由度と不偏分散
・グループ平均 – 全体平均
・平方和(グループ間変動) = 4{ (-5)2 + (4)2 + (1)2 } = 168
・「グループ間偏差」の自由度 = グループ数 – 1 = 2
・不偏分散 = 平方和/自由度 = 168/2 = 84
※2 グループ内偏差と平方和と自由度と不偏分散
・各データ値 – グループ平均
・平方和(グループ内変動) = {(1)2+(-1)2+(-2)2+(2)2} + {(-1)2+(-3)2+(4)2+(0)2}+{(-3)2+(1)2+(3)2+(-1)2} = 56
・「グループ内偏差」の自由度 = グループ数 * (グループ内のデータ数-1) = 3 * (4-1) = 9
・不偏分散 = 平方和/自由度 = 56/9 = 6.22
以上より、今回得られた結果は、S11(=84)>S22(=6.22)となるため、要因に対して効果があると判断できます。
それでは、この判断が統計的に意味のある差かどうかを以下、検定します。
⑤ 判定する
分散分析では、主に、F値を使って検定します(F検定)。
帰無仮説H0:要因の違いによる効果はない(S11 < S22)
肥料による効果の違いはない
対立仮説H1:要因の違いによる効果がある(S11 > S22)
肥料による効果の違いがある
今回の有意水準:5%
(1)F値で判断する
棄却域となる臨界値をF分布から検出します。自由度2と9のF分布において、片側(=上側)5%の臨界値とF値(F統計量)を比較して検定します。
※ F分布表はこちら
・F値(F統計量):13.5(F値 = S11 / S22)
・棄却域F:4.26(臨界値)
・4.26 <= 棄却域F
以上より、4.26 <= 13.5 となり、F値(F統計量)は棄却域に入っており、今回の帰無仮説は棄却され、対立仮説が採用されます。
(2)P値で判断する
有意水準 0.05 >= P値 0.001953125
帰無仮説が正しいとした場合、今回求められたF統計量と等しいかそれよりも大きい値が求められる確率(P値)は0.19%となります。この確率が有意水準5%よりも小さいため、今回、極めて稀なことが起こったとして、帰無仮説を棄却して対立仮説を採用します。
まとめ
今回は、分散分析を試してみました。分散分析は、主に3群(3グループ)以上の平均の差に意味があるかどうかを分析するための統計的手法です。今回扱った例は、要因が一つだけとなりますが、要因が2つあるいはそれ以上となる場合もあります。もし、興味があれば、ぜひ、確認してみてください。