Tableau(タブロー)-Prep2019.1-画面UI(ユーザーインターフェース)を俯瞰する
Tableau Prepの画面ユーザーインターフェースと役割
接続ペイン
最初に実施することは、まず、データ接続です。ファイルの結合やユニオンをする場合は、接続ファイルを複数取り込む必要があります。また、データインタープリターを使用することで、不要な情報を削除したり、サブテーブルを検出できる可能性があります。
フローペイン
フローペインは、クリーニングするための実験キャンバスです。ここでさまざまなステップを組み合わせてクリーニングを実施します。データ接続後、データプレパレーション(=データクレンジング・データ正規化)の最初の一歩は、下記機能項目の選択です。選択肢として、ステップの追加、集計の追加、ピボットの追加、結合の追加、ユニオンの追加です。いきなり出力の追加を選択することはないと思います。出力の追加は一般的に、クリーニング済みのファイルを吐き出す最後の処理で選択することになるでしょう。
スタート時のステップ選択肢
- ステップの追加:クリーニングの多くがここで行われます。
- 集計の追加:グループ化したフィールドを単位として集計したい場合に利用します。
- ピボットの追加:横持ちデータを縦持ちに、あるいは、縦持ちデータを横持ち(逆ピボット)に構造変換したい場合に利用します。逆ピボットは、2019.1 Verから使用可能です。
- 結合の追加:ファイル結合を実施する場合に利用します。
- ユニオンの追加:ファイルをマージしたい場合に利用します。10個を超えるファイルをマージする場合はワイルドカードユニオンを使用します。
- 出力の追加:クリーニングが完了したら、ファイルを出力しておきます。csv, hyper, tdeの形式で保存できます。
また、一通り出来上がったフローに対しては、ステップの挿入や分岐の追加が加わります。どちらも、ステップの追加と挙動は同じです。目的によって、フローに挿入するか、分岐させるかを決めます。
途中で挿入する時のステップ選択肢
このステップを組み合わせることによって、データクリーニングを徐々に進めていきます。クリーニングが完了次第、出力の追加を設定します。複雑な処理を加えている場合は、必ず、説明の追加をステップに加えたり、色を編集して強調しておくのも良いでしょう。
集計の追加
ピボットの追加(下記は逆ピボットの例)
結合の追加
結合句、結合タイプをグラフィカルに選択可能です。また、結合句に応じて不一致のデータのみの抽出することも可能です。
ユニオン(ワイルドカードユニオン)
ユニオンの追加
出力の追加
プロファイルペイン
プロファイルペインの役割は、フローの各任意点におけるデータ構造を確認するために利用します。もちろん、データ操作の結果を確認しながら作業を進めるためにも利用できます。
並べ替え
その他のオプション
その他のオプションには、フィルター、グループ化と置換、クリーニング、値の分割、表示状態(詳細、サマリー)、フィールド名の変更、計算フィールドの作成、フィールドの削除があります。データ型によって選択可能な項目は変わります。計算フィールドを使って、例えば、文字列型を日付型にデータ正規化する場合、DATEPARSE関数をここで使います。
フィルター
数値型のフィルター
文字列型のフィルター
日付型のフィルター
グループ化と置換
クリーニング
値の分割
変更内容ペイン
各フローで設定されているフィルターなどの変更条件がプロットされます。この条件を再利用するために、条件をコピーして別のステップにこの条件をコピーすることも可能です。
設定済みフィルタ
特徴的なのは、ここで設定しているフィルター条件の一つを別のステップでコピーできる点です。
データグリッド
データを行レベルで確認できます。プロファイルペインで設定された内容がここに反映されます。また、保持、除外または、計算ごとのフィルターを使うことで、ここでもクリーニング操作を実施することも可能です。
保持・除外・計算ごとのフィルター
保持または除外することで、ここでフィルターすることも可能です。
まとめ
今回は、Tableau Prep 2019.1の画面UI(ユーザーインターフェース)を俯瞰してみました。実際のクリーニング処理は、似たような処理をまとめながら、一気に処理を片付けずに段階を踏んでステップを踏んでいくとメンテナンスしやすいのではないでしょうか。また、大事なことは他人がみて、何の目的でどのような処理をしたかがわかることです。そのために、必ず、説明の追加を加えることも忘れずに実施しましょう。