Tableau&Exploratory_95%信頼区間をそれぞれで可視化する
今回使用するデータソースはこちら
開始年2016年のサンプル・スーパーストアをお借りします。
(1)95%信頼区間とは
サンプルの平均と母集団の本当の平均(=真の平均)とは、通常、誤差を生じます。そこで、どれくらいの幅(=信頼区間)を持たせておくと、真の平均をカバーできるのか。このことを言い換えると、サンプルの平均から95%信頼区間を推定した上で仮にこの作業を100回実施した場合、その95%信頼区間の中に「母平均」が含まれる割合が95%になる、という意味になります。
(2)95%信頼区間を求める計算式
a) 95%信頼区間 = 標準誤差 * 1.96 +(-) サンプルの平均 (両側検定の場合)
b) 標準誤差 = サンプル標準偏差 * 1/ √サンプルデータの数
c) 標準偏差 = √ 分散 ※ 詳細はこちらより
(3)Exploratoryで95%信頼区間を求めてみる
Exploratoryでは、エラーバータイプがあらかじめ選択可能です。特に計算式の作成は不要です。
(4)Tableau(タブロー)で信頼区間95%を可視化する
Tableauの場合は、以下、計算フィールドで計算式の作成が必要です。
なお、エラーバーの作成手順はTableauヘルプにも記載がありますが計算フィールド名の対応関係など、正直、読み取りにわかりづらい部分がありますので下記を参考にしてください。●が平均値となり、その上限バーならびに下限バーの範囲が95%信頼区間となります。
・名前:標準偏差(利益)
STDEV([利益])
・標準誤差
[標準偏差(利益)] / SQRT(COUNT([利益]))
・95%信頼区間
1.96 * [標準誤差]
・信頼限界(上限)
AVG([利益]) + [95%信頼区間]
・信頼限界(下限)
AVG([利益]) – [95%信頼区間]
・エラーバーの長さ
[信頼限界(上限)] – [信頼限界(下限)]
補足1)リファレンスバンドで、信頼区間の上限(終点側)、下限(起点側)を再現します。
補足2)エラーバーは、信頼限界(下限)メジャーをガントチャートに変更して、「サイズ」にエラーバーの長さ(メジャー)を配置します。
補足3)行に配置している信頼限界(下限)と平均(利益)を二重軸・軸の同期を設定します。
(5)解釈する
この95%信頼区間だけで何かを解釈しようとする場合、まず、大きく、平均(利益)に差があるかどうかを確認します。つぎに、95%信頼区間をみてその重なり具合を確認した上で、この95%信頼区間が重なっている場合、真の平均がほぼ同じである可能性があり、それらの平均に差があるとは言い切れないという解釈をします。今回の場合、「事務用品」は、他と95%信頼区間が重なっていないため、平均(利益)に差がありそうだ=差に意味がありそうだ、と解釈できそうです。
まとめ
今回は、95%信頼区間の簡単な定義とその可視化方法を2つのツールで捕捉してみました。また、95%信頼区間だけで解釈した場合、どんなことがいえそうかも簡単ですがご紹介してみました。ひとまず、95%信頼区間はおおざっぱにこんなイメージだ、という理解をしていただいた上で本格的な学習の足がかりにしていただければ幸いです。