今日のテーマ
tableau 10.0で今回新たに追加された機能の一つである、クラスター分析機能を試してみた
クラスター分析とは、統計分析手法の一つです。
クラスター分析とは、異なる性質のものが混ざりあっている集団(対象)の中から互いに似たものを集めて集落(クラスター)を作り、対象を分類しようという方法を総称したものです。
http://www.macromill.com/landing/words/b003.html
とあります。
まずは、今回は、日本プロ野球の歴代ホームランランキングベスト100を使ってクラスター分析を試してみました。
◆試してみること
日本プロ野球会(あくまでNPB)におけるホームランランキングベスト100を使って、何らかの特性に着目して分類できるか試してみます。
◆クラスター分析手法
クラスター分析を実施するにあたり、手法として大きく2つあります。
クラスター分析には、大きく分けると階層クラスター分析、非階層クラスター分析の2種類の方法があります。それぞれを手法の特長を見ていきましょう。
『https://onlinehelp.tableau.com/current/pro/desktop/ja-jp/clustering_howitworks.html』
tableau(タブロー)については、非階層クラスター分析の代表格であるk 平均法を採用しているようです。
『https://onlinehelp.tableau.com/current/pro/desktop/ja-jp/clustering_howitworks.html』
◆手順
1. ランキングデータとしてexcelをあらかじめ用意
2. データソースとして、1を指定、バブルチャートを作成する
横軸:打数
縦軸:本塁打数
マーク:本塁打率(本塁打数/打数)※バブル要素
3. ”アナリティクスペイン”からクラスターを選択。合わせて、傾向線を選択。
クラスター数:3
4. クラスターを見てみる
・クラスター1:
打席数、本塁打数、本塁打率ともに良いタイプ
典型的なホームランバッター群とおもわれる
・クラスター2:
打席数は少ないながらも、本塁打を効率良く叩き出したタイプ
外国人助っ人、若い現役選手、選手生命が短かった天才肌バッターとおもわれる
・クラスター3:
打席数が多く、ジリジリとホームランを積み重ねたタイプ
中距離バッター群とおもわれる
◆まとめ
今回は、特段、アカデミックな検証はしておりません。
したがって、本当に根拠があるかどうかは不明です。
しかしながら、ある程度の傾向は手軽に見出せたといえそうです。
そもそも、クラスター分析は専門家でもこれが正しい手法、
これが最適解、を見つけ出すのがなかなか大変とのことです。
試行錯誤でいろいろトライする必要がありそうですね。
引き続き、検証していきます!
※tableau(タブロー)に関する参考書籍はこちらも便利です!