Exploratoryツールにおける重回帰分析を試してみる
重回帰分析とは
1つの結果に対して影響を与えていると考えられる要因(=説明変数)が複数ある回帰分析のことを指します。なお、この結果を被説明変数あるいは目的変数などと呼びます。重回帰分析の狙いは、主に要因分析(=結果に対して特に影響度合いの大きい要因を明らかにする)と、予測分析(=重回帰式から結果を予測する)の2つとなります。
重回帰分析の位置付けについて(多変量解析の分類)
この重回帰分析は、多変量解析の一つです。多変量解析とは、3つ以上の変数を同時に分析する分析手法の総称です。この多変量解析を分類すると、以下の通りとなります。
※ 外的基準があるかないか(=目的変数が想定されているかどうか)
外的基準 | 目的変数 | 説明変数 | 分類名 |
あり | 量的データ | 量的データ |
重回帰分析 正準相関分析 |
質的データ |
実験計画法 数量化理論Ⅰ類 一対比較法 |
||
質的データ | 量的データ |
判別分析 ロジスティック回帰分析 |
|
質的データ |
数量化理論Ⅱ類 決定木 対数線形モデル |
||
なし | – | 量的データ |
主成分分析(情報要約) クラスター分析(グループ化) |
質的データ |
数量化理論Ⅲ類 コレスポンデンス分析 数量化理論Ⅳ類 |
||
質的・量的データ | 対応分析(グループ化) |
重回帰分析時の注意点
・多重共線性とVIF
選択した説明変数同士が高い相関関係にある場合、多重共線性(マルチコ)という、回帰係数が定まらず分析結果が不安定になる問題が発生しますので注意が必要です。これに対処するためにはR2乗値からVIFを算出します。このVIFが10を超えた変数において、高い相関性を持つ変数のうちのいずれか一つを削除して対応すると良いです。※ 多重共線性の例:徒歩時間と距離の関係 など
VIF = 1/(1-R2)
・外れ値の扱い
回帰線を引くために必要な最小二乗法は外れ値の影響を受けやすいです。外れ値の見つけ方は箱ひげ図や標準偏差などを使って探すことが可能ですが、これら外れ値は、その理由を調べながら場合によっては異常値として削除したり、ダミー変数に置き換えるあるいは、対数や最尤法さいゆうほうなどを使って処理する必要があります。
・サンプル数
重回帰式を求めるにあたり、サンプル数 – 説明変数 -1 > 0 を満たす必要があります。
・予測分析時の重回帰式の精度を高めるためには
データにあるすべての説明変数をすべて採用する必要はなく、より影響度合いの高い説明変数に絞った方が回帰式の精度が高まる場合があります。変数を絞った際は、「調整済みR2乗」という指標を使ってそれぞれのパターンで比較しながら変数の最適解(最適な重回帰式)を決定すると良いです。
重回帰分析を試す
今回は、下記のデータを使って、結果(今回は賃貸料(円))に対して、どの説明変数の影響度合いが大きいといえるかを探ることで、施策実施の対象となる優先順位にあたりをつけてみたいと思います。
(1)データを取り込む
こちらのデータをExploratoryで取り込みます。取り込み後のイメージは下記です。
(2)タイプ:線形回帰分析を設定する
まず、下記の通り、アナリティクス>タイプ:線形回帰分析を選択します。つぎに、目的変数(=結果)を賃貸料(円)に設定します。さらに、列の設定でひとまず、ID以外をすべて設定してOKをClickします。
(3)多重共線性がないかどうかを確認する
ひととおり、設定ができましたら実行ボタンをClickします。そして、「多重共線性」のメニューをClickして、各変数のVIFを確認します。
上記の通り、VIF10を超えているのは徒歩時間(分)と距離(m)の2つとなります。
念のため、それぞれの変数同士の相関係数も確認してみます。
下記の通り、徒歩時間(分)と距離(m)が高い相関係数を示しております。
(4)多重共線性(マルチコ)の問題に対応する
距離(m)と徒歩時間(分)は、感覚的にもかなり強い相関関係があることは容易に想像つきます。ここでは、多重共線性の問題に対応するため、どちらかの変数を削除します。どちらを削除するかは、① 賃貸料(円)に対するそれぞれの変数の単相関係数のより強い方(絶対値で比較)を選択するか、② ビジネス的に興味のある変数を選択する、という考え方でも良いでしょう。今回は、賃貸物件を探すときによく気にする「徒歩時間(分)」を残します。
(5)再度、多重共線性を確認する
それでは、あらためて、変数を再設定し、多重共線性を確認してみましょう。
下記の通り、VIFが10を超えた変数がなくなりました。
(6)R2乗で回帰式全体の精度を確認する
R2乗が1に近づけば近づくほど回帰式全体の精度が高い、と解釈できます。今回のR2乗は0.82とあるため、今回の3つの変数で約82%を説明できている、ということになります。
(4)t統計量をみて「目的変数」に対する影響度をみる
t統計量の絶対値を比較することで、今回の目的変数である賃貸料(円)に対する影響度の度合いを知ることが可能です。今回は、敷地面積(m2)> 築年数 > 徒歩時間(分) と判断可能です。なお、係数をそのまま使って比較して目的変数への影響度合いを判断することはできません(単位の影響を受けるため)。
下記は、+方向あるいは-方向での影響を図示しております。敷地面積は+方向で、徒歩時間(分)あるいは築年数では−方向で影響度合いが大きいと解釈できます。
まとめ)
今回は、Exploratoryツールを使って重回帰分析(うち、要因分析)を実施してみました。今回の題材は賃貸物件に関するダミーデータを使用しておりますが、Googleアナリティクスの例えば、コンバージョンやクリック数(結果)に影響を与えている変数は何か?ということでこの「重回帰分析」を活用することが可能です。その結果に対する要因の影響度合いがより強い変数がわかれば、ペイオフマトリクスを使って施策優先順位を決定する際の決定プロセスもより精度が高くなると思います。これを機に、ぜひ、試してみてください。