Exploratoryとノート(Rコード)を使った χ2検定(カイ二乗検定)を試してみる
Exploratoryを使った検定(χ2検定・カイ二乗検定)
はじめに
本日は、おもに、χ2検定(カイ二乗検定)の使いどころと解釈方法をご紹介しながら、最後にExploratory(データラングリング・ノートのRCodeの2つ)を使って検定の実施までやってみたいと思います。
(1)ウェブ界隈でよく行われるA/Bテストの評価方法(検定)について
まず、取り扱うデータによって、統計的検定手法は大まかに下記のように分類されます。
a) 売上や利益(=連続の数値)など2群間の平均値に差があるかどうか
t検定
b) 売上や利益(=連続の数値)など2群間の中央値に差があるかどうか
ウィルコクソンの順位和検定
c) 2値データ(カテゴリデータ)でその効果が有意であるかどうか
例えば、ウェブの場合、施策A・オリジナルでのコンバージョンの有・無(=Yes・No)をイメージしてみてください。
χ2検定(カイ二乗検定)
二項検定
t検定
ベイジアンA/Bテスト
など
(2)ExploratoryとRコードの両方で試してみる
下記の簡単な例を使って、今回のテーマであるχ2検定(カイ二乗検定)を最短最速で試してみたいと思います。今回は、データソースをExcelのよくあるフォーマットで作成してそこからスタートさせてみます。データの整形(データラングリング)もこの状態からExploratoryで調整してみます。
Exploratoryツールでχ2検定(カイ二乗検定)を実施する編
仮説検定する始める際の手順としては、こちらを参照ください。大事なのは、手順のうち、帰無仮説、対立仮説および、有意水準の設定です。
帰無仮説H0:施策とコンバージョン数の有無は独立している
→平たくいうと、コンバージョンしたかしていないかは施策A/Bによって違わない
対立仮説H1:施策とコンバージョン数の有無は独立していない
→平たくいうと、コンバージョンは施策A/Bによって異なる
有意水準 :極めて稀に起こると判断できる基準を確率として設定した任意の値
→今回は5%で設定する。P値がこの有意水準の5%以下の場合、帰無仮説が棄却され、対立仮説が採用される。
① Exploratoryでデータソースを読み込む
事前にプロジェクトを新規作成しておいてください。まず、下記のようにデータソース(Excel)を取り込みたいので下記のように設定します。
ファイルデータからExcelを、そしてデータソース対象ファイルを指定して取り込みます。結果、下記のようになります。さらに、ここから、データ整理する必要があります。まず、「計」が不要です。次に、Yes/Noを同じディメンションにまとめる(横持ち→縦持ち変換)必要があります。
ここでは、一旦、列の「計」を外してしまいます。それ以外の処理は、テーブル表から実施しましょう。
取り込み後、「テーブル」タブから確認すると、列の「計」が削除されたことを確認できます。
② Exploratoryでデータを加工する(データラングリング)
さきほどの続きになります。縦持ち・横持ち変換はこちらの記事が参考になります。まずは、下記の通り、整形してみましょう。
新しく、列名を命名する(ここでは、キー列:ディメンション名、値の列:メジャー名に相当)。
下記のような結果になっていればOK。ここから、さらに、不要な行を削除する(3,6行目の計というレコード行)処理を実施すればOKです。
不要な行を削除するには下記のような手順で処理が可能です。
X_1列を降順に並び替えた後、削除対象とする行数を指定する。
+ からこれだけを残す / 削除するを選択。
行を選択する際、除くを指定。1-2行を指定することで削除可能。
最後、列名を変更する。
③ Exploratoryでχ2検定(カイ二乗検定)を実施する
χ2検定(カイ二乗検定)を実施する場合は、下記のように設定します。まず、アナリティクスメニュー>タイプ:カイ二乗検定を選択します。注意が必要なのは、右上のピンマーク(赤矢印)の位置がステップ5を指しているかどうか確認してください。このピンマークがステップ5に当たっていないとステップ5までの一連の処理が完了していないことを意味します。
まず、P値を確認します。有意水準を今回5%で設定したため、今回のP値(限りなく0に近い値:0.0004%)は有意水準5%以下となります。したがって、帰無仮説は棄却されます。つまり、対立仮説が採用されます。今回の場合は、施策によって、コンバージョン数は異なる、ということになります。つまり、オリジナルの方が成績は良好といえます。
すでにP値が限りなく0に近いため、タイプ2エラーの確率はあえて確認する必要はないです。もし仮に、P値が有意水準の5%を超えている場合は、念のため、タイプ2エラーの確率を確認しておいてください。
※タイプ2エラーの確率とは、帰無仮説を棄却できないと解釈した場合、どれくらいの過誤があるか?。言い換えると、本当は差があるのにもかかわらず、検定結果、差がないと誤判定する確率がどれくらいあるか(本当は帰無仮説を棄却すべきだったのにしなかったという意味合い)。
Exploratoryツールのノート(Rコード)でχ2検定(カイ二乗検定)を実施する編
今度は、Exploratoryのノート機能を使って試してみます。ここでは、Rコードのみをご紹介いたします。※必要なLibraryは各自で読み込むように設定しておいてください。やり方はこちらを参考にしてみてください。Libraryは、openxlsxです。
x <- read.xlsx("/Users/toshiya.murayama/Downloads/検定.xlsx")
head(x)
x <- x[,c(-4)]
head(x)
x <- x[-3,]
head(x)
x <- cbind( c(x[1,2], x[2,2]), c(x[1,3], x[2,3]) )
chisq.test(x, correct=FALSE)
検定統計量(カイ二乗値)も先ほどと同様、20.972を算出できました。また、P-value(P値)も前回と一致しております。
(3)まとめ
今回は、ウェブでよく実施されるA/Bテストの統計的な検定方法の種類とその中のχ2検定(カイ二乗検定)の解釈方法をご紹介いたしまました。そして、χ2検定(カイ二乗検定)をExploratoryを使って実際に試してみました。これを機に、みなさまも、Exploratoryを使ったA/Bテストの統計的アプローチをぜひ、試してみてください!
他社様の記事もあわせてご参考にしてみてください)
https://www.rco.recruit.co.jp/career/engineer/blog/ab-test-logic/
‘https://www.principle-c.com/column/marketing/chi-squared-test-with-exploratory/
カイ二乗検定を自力で行う場合はこちら
コメントを投稿するにはログインしてください。