クラメールの連関係数から独立性の検定(カイ二乗検定・χ2検定)までの流れ
はじめに
前回は、こちらの記事でカイ二乗検定(χ2検定)をExploratoryツールを使って試してみました。今回は、これらを「自力」で計算してみようと思います。
データソース
前回同様、今回使用するデータはこちら です。
手順について
(1)クラメールの連関係数を求める(=カテゴリデータ同士の相関係数)
① 期待度数 を求める
② (実測度数-期待度数)2 / 期待度数 を求める
③ カイ二乗統計量を求める
④ クラメールの連関係数を求める
(2)独立性の検定(カイ二乗検定:χ2検定)を実施する
① 帰無仮説を立てる
② 対立仮説を立てる
③ 検定方法を選択する
④ 有意水準を決定する
⑤ 検定統計量の値を求める
⑥ 検定統計量が棄却域に入っているか調べる
⑦ 判定(2種類ある)
それでは、早速はじめてみましょう!
(1)クラメールの連関係数を求める
① 期待度数 を求める
・オリジナル:Yes の期待度数を求める
548*646 / 1215 = 291.364
Yes | No | ||
オリジナル | (548*646) / 1215 | 548 | |
クリエイティブA | |||
646 | 1215 |
・オリジナル:Noの期待度数を求める
548*569 / 1215 = 256.635
Yes | No | ||
オリジナル | 548*569 / 1215 | 548 | |
クリエイティブA | |||
569 | 1215 |
・クリエイティブA:Yesの期待度数を求める
646*667 / 1215 = 354.635
Yes | No | ||
オリジナル | |||
クリエイティブA | 646*667 / 1215 | 667 | |
646 | 1215 |
・クリエイティブA:Noの期待度数を求める
569*667 / 1215 = 312.364
Yes | No | ||
オリジナル | |||
クリエイティブA | 569*667 / 1215 | 667 | |
569 | 1215 |
② (実測度数-期待度数)2 / 期待度数 を求める
実測度数
期待度数
Yes | No | |
オリジナル | 291.364 | 256.635 |
クリエイティブA | 354.635 | 312.364 |
・オリジナル:Yes の (実測度数-期待度数)2 / 期待度数 を求める
(331 – 291.364)2 / 291.364 = 5.3919
・オリジナル:Noの (実測度数-期待度数)2 / 期待度数 を求める
(217 – 256.635)2 / 256.635 = 6.1212
・クリエイティブA:Yesの (実測度数-期待度数)2 / 期待度数 を求める
(315 – 354.635)2 / 354.635 = 4.4297
・クリエイティブA:Noの (実測度数-期待度数)2 / 期待度数 を求める
(352 – 312.364)2 / 312.364 = 5.0294
③ カイ二乗統計量を求める(②を合計)
カイ二乗統計量 = 5.3919 + 6.1212 + 4.4297 + 5.0294 = 20.9722
参考まで)Exploratoryツールで算出した結果
④ クラメールの連関係数を求める
クラメールの連関係数 = √ カイ事情統計量 / 全データの個数 x ( min{2,2} -1 )
= √ 20.9722 / 1215 * (2-1) = 0.13138
※ min{2,2}は、min{行数,列数}のうち、いずれか小さい方という意味合いです。
※ 自由度を求める: (2行-1)*(2列-1) = 1*1 = 1(自由度 1)
以上より、クラメールの連関係数は0.13となり、0から1の範囲をとることを考慮すると、非常に弱い関連性と言える
(2)独立性の検定(カイ二乗検定:χ2検定)を実施する
① 帰無仮説を立てる
H0:母集団のクラメールの連関係数の値は0である
H0:施策とコンバージョンは独立している(関連していない)
② 対立仮説を立てる
H1:母集団のクラメールの連関係数の値は0よりも大きい
H1:施策とコンバージョンは独立していない(関連している)
③ 検定方法を選択する
-
- 独立性の検定(カイ二乗検定・χ2検定):クラメールの連関係数が0でないかどうか
- 相関比の検定:数量とカテゴリデータの相関比が0でないかどうか
- 無相関の検定:数量と数量データの単相関係数が0でないかどうか
- 母平均の差の検定:平均の差に有意差(意味のある差)があるかどうか
- 母比率の差の検定:比率の差に有意差(意味のある差)があるかどうか
上記より、今回は独立性の検定を実施する
④ 有意水準を決定する
有意水準を0.05(5%)とする。
そのとき、カイ二乗分布表より、自由度1、P値が0.05(5%)とした場合のカイ二乗値の対応値(臨界値と呼ぶ)は、3.84となる。
⑤ 検定統計量の値を求める
カイ二乗統計量は、前述で計算した通り、20.9722 となる。
⑥ 検定統計量が棄却域に入っているか調べる
有意水準0.05に対応するカイ二乗値(=臨界値)は、3.84であり、このときの棄却域は、この3.84 <= カイ二乗値 が成立した場合となります。
⑦ 判定
2種類の判定方法があります。
- 検定統計量が棄却域に入っているかどうか(臨界値 < カイ二乗統計量 で棄却域に入ったと判定)
- 有意水準よりもP値の方が小さいかどうか
前段で判定する場合、臨界値3.84よりもカイ二乗統計量20.9722が大きいため、棄却域に入っており、帰無仮説を棄却し対立仮説を採用します。
なお、後段で判定する場合は、有意水準よりもP値の方が小さい場合は、帰無仮説を棄却して対立仮説を採用します。ここでいうP値とは…
帰無仮説が正しいとした場合、今回求められたカイ二乗統計量と等しいかそれよりも大きい値が求められる確率 と定義できます。今回、P値を計算で求めると0.0000004となり、これは有意水準0.05よりも小さく、帰無仮説を棄却して対立仮説を採用します。
まとめ
今回は、前回Exploratory実施したカイ二乗検定を「自力」計算してみました。
自力計算を実施することは今後もほぼないかと思いますが、一連の流れを試しておくとより理解が深まるかと思います。統計検定2級対策としては必須かと思いますので皆さんもぜひ、一度、試してみてください。結論、Exploratoryツールを使った方が良さそうです。