Exploratoryツールで相関比を求めてみる
(1)相関比とは
相関比とは、量的データと質的データの相関を確認する場合に参照される指標です。なお、データの分類によって、相関係数は下記の通りとなります。
量的データ x 量的データ |
単相関係数(ピアソンの積率相関係数) |
-1 – 1 の範囲 |
量的データ x 質的データ | 相関比 | 0 – 1 の範囲 |
質的データ x 質的データ | クラメールの連関係数 | 0 – 1 の範囲 |
(2)相関比(η2)の計算式
η2(イータ2乗) = 群間変動(SB) / 総変動( =群間変動(SB)+ 群内変動(SW))
総変動 = 群間変動(SB)+ 群内変動(SW)
計算サンプル
下記の性別年収データ(元データ)を使って計算をしてみます。
上記の場合、群間変動(SB)と群内変動(SW)は下記の通りとなります。
群間変動(SB)= 男性平均 – 全体平均(D列) および、女性平均 – 全体平均(D列) をそれぞれ2乗した値(F列)を総和する(=F列の総和がSB)
群内変動(SW)= 各男性メンバー年収 – 男性平均(E列) および、 各女性メンバー年収 – 女性平均(E列) をそれぞれ2乗した値(G列)を総和する(=G列の総和がSW)
※ 実際の2乗結果(F列、G列)は、D列・E列の小数点をそのまま考慮して2乗しております。
※ η2(イータ2乗) = 55,602 / 147,861
(3)相関比のおおよその目安
0.8 – 1.0 非常に強い相関
0.5 – 0.9 やや強い相関
0.2 – 0.5 やや弱い相関
0 – 0.2 非常に弱い相関もしくは相関なし
(4)Exploratoryツールで実施してみる
ひととおり、計算式の流れと相関の程度を確認したところで、今度は、Exploratoryツールで上記の結果を得てみましょう。今回のデータはこちらです。
① データを取り込む
② tidyデータ(縦持ち)に構造変換する
tidyデータに変換完了
③ サマリーから相関を求める設定をする
Exploratory6.0以降を使用している場合は、下記の通り、設定が可能です。
下記のように自動設定される。R2乗の欄に今回求める「相関比」が表出されていることがわかる。なお、こちらの蘭がリンクになっているので、リンクをクリックしてみましょう。
リンクClick後、下記の画面に遷移します。なお、ExploratoryツールのVer.5以前を使用している場合は、下記の通り、設定すると良いです。
④ 基本統計量を確認する
今回求めようとした相関比は、R2乗の項目に表出されております(0.37)。先ほどの定義でいくと、「やや弱い」の相関になりそうです。なお、P値(=超ざっくりいうと、帰無仮説が正しいとした場合の確率)が0.2%のため、帰無仮説(=年収において男女グループ間に差はない)を棄却して対立仮説を採用できる(グループ間に差がないとはいえない≒差はある)ことを意味しております。
※ P値は有意差を示すのみで、差の程度まではわかりません。差の程度は、95%信頼区間で確認することになります。
係数(有意)を確認すると、ベースレベル:女性から男性に変わると、このデータでは年収が+100万円(=係数)上がることを示しております。95%信頼区間でみた場合は、43〜157万の範囲で増加するであろう、と考えられます。
まとめ
今回は、質的データと量的データの相関を把握するための指標となる「相関比」について確認してみました。最後に、Exploratoryツールを使って、同じデータを読み込みながら、ツールを使った解釈方法も少し確認してみました。ツールにおいては、「相関比」だけを気にするというよりも、実際に、P値と95%信頼区間をあわせてみながら解釈するのが良さそうです。
みなさまもこれを機に、Exploratoryツールを導入してみてはいかがでしょうか?弊社でも導入から支援させていただくことも可能ですので、ぜひ、ご相談ください!