Tableau(タブロー)-データ分析する前の習慣(サマリーデータの確認)
はじめに
Tableau(タブロー)に限らず、データ分析する際に忘れがちですが、「データ全体の状況を把握する」ことがとても大事です。特に、統計の世界において、統計的手法の多くが、母集団の母数が正規分布に従って分布していることを前提としており、その母集団が正規分布に従っているのであれば標本も正規分布に従うはず、ということを前提としております。仮に、そこに、外れ値(極端に大きいあるいは小さいデータ、少数のデータ)が存在した場合、統計解析を行う場合に大きく影響する可能性があります。場合によっては、外れ値を含めた結果と外れ値を除外した結果の両方を報告するなどの対応が必要になる場合があります。したがって、扱う対象となるデータ全体の状況を先に把握しておくことを習慣づけておくと良いです。
データ全体の状況を把握するためにやると良いこと
- 度数分布表で確認する
- ヒストグラムまたは、箱ひげ図を作成して分布を確認する
- 算術平均・中央値・最頻値の確認
- 分散と標準偏差の確認
- 変動係数の確認
- 相関係数の確認
- 散布図とR2乗値の確認
それでは順番にみていきましょう
度数分布表で確認する
度数分布表とは
量の大小の順で並べ、各数値が現われた個数を表示する表 『ウィキペディア』
Tableau(タブロー)で作成した場合は、下記の通りです。
ポイント)
① 階級数と階級幅の決め方
スタージェスの公式を利用する方法があります。
階級数 = log2(20) + 1 ≒ 5
※ 例)log3(9) = 3を何回掛けると9になるか?。A.2
この場合は、2を何回掛けると20になるか??ということです。A. 4.39192…
階級幅 = (783 – 15) / 5
※ 売り場面積(㎡)の最大値(783)- 最小値(15) = 768 を5で割ると、≒ 150
② 空の行の表示方法
データがない場合、Tableauの初期設定では行や列が非表示となります。そこで、下記のように設定します。
メニューバー>分析>表のレイアウト>空の行を表示
③ サマリーデータの出し方
ワークシートの空いているところで、右クリック>サマリー でサマリーカードを出せます。ここで、算術平均・中央値の確認が可能となります。
④ ヘッダーの別名編集
ヘッダー行のうち、名前を変更したいヘッダーの上を右クリックして、「別名の編集」をクリック。
⑤ 相対度数の設定
簡易表計算(合計に対する割合)に対して、アドホック計算を使って、ZN(SUM([売り場面積(㎡)]) / TOTAL(SUM([売り場面積(㎡)]))) とします。
⑥ 累積相対度数の設定
セカンダリ表計算を使って、累計の合計に対する割合を設定します。
セカンダリ計算とは、プライマリ計算結果を利用しながら、さらに二つ目の計算をする機能です。
プライマリ計算:累計の合計を出したい
セカンダリ計算:累計の合計に対して、それをさらに割合として再計算したい
ヒストグラムまたは、箱ひげ図を作成して分布を確認する
下記は、ヒストグラムです。
ポイント)
① ヒストグラムでは、BarとBarの間のスペースは不要(≠棒グラフ)
間のスペースを埋めるには、「サイズ」をクリックしてスライダーで変更し、隙間を埋めることができます。
下記は、箱ひげ図です。
ポイント)
① 行に配置したメジャーを、ディメンションにする
メジャーの合計をみても仕方がないので、▽をクリック>ディメンション にします。こうすることで、レコード単位でプロットされます。
分散と標準偏差の確認
簡易表計算を使うことで、母分散、母標準偏差を算出可能となります。
また、変動係数( 標準偏差 / 算術平均 )や相関係数(CORR)については、計算式フィールドで関数を利用することで算出可能です。
※ 標準偏差:データのばらつきを表す一般的な統計量。参考まで。
※ 変動係数:主に、性質の違うもの同士を相対的に比較したい場合に利用できる。式:標準偏差 / 算術平均。
※ 相関係数:2つの変量の関係を知るために利用できる。-1 〜 1 までを取る。1に近づくと正の相関関係があり、-1に近づくほど負の相関関係があるといえる。式:CORR( [売り場面積(㎡)],[販売金額(万円)] )
散布図とR2乗値の確認
最後に、散布図でも可視化してみます。また、傾向線を使って、R2乗値を確認しておきましょう。R2乗値は、相関係数の2乗と基本的には一致すると考えられます。
まとめ
今回は、本格的にデータ分析や統計解析を開始する前に、データの全体像を把握するためのポイントをまとめてみました。いきなり、データ分析を実施したくなりますが、ビッグデータなどのデータについては、そのままの状態で、必ずしも、データ正規分布の状態になっているとはいえない場合も多いです。むしろ、べき分布になっていることの方が多いかもしれません。したがって、まずは、データ全体像の把握を先に行うことを習慣づけておくことで、そのあとのデータ分析や統計解析の方針を決定するとそのあとの流れはスムーズになると思います。ぜひ、参考にしてみてください。