サイトアイコン 株式会社ウェブ改善・分析企画開発リサーチ

正規表現の基本を抑える

正規表現はウェブアナリストの武器

Googleアナリティクスでは、正規表現を使用したデータ集計はとても便利です。

正規表現を使うことで、例えば、パラメータだけが違う何百ものURLを束ねて集計が可能となります。

正規表現を知らない場合、このようなデータの収集効率と精度はなかなかあがりません。

解析アナリストとしても、正規表現を確実に抑えておく必要があります。

 

 

特殊文字(メタ文字)

◆文末を定義する  $


アドバンスフィルタ(右上赤枠)で、「タグマネージャ」と検索してみます。

すると、タグマネージャという文言が含まれるページが部分一致で表示されます。

 

 

マネージャ/  でピッタしにおわるページのみをデータ取得するにはどうしたらよいでしょうか?

①アドバンスフィルタ機能>正規表現一致を選択

タグマネージャ/$ と入力

意味:$ は、文末であることを意味する正規表現上での特殊文字(メタ文字)です。

これにより、タグマネージャのあとの文末がスラッシュで終わるページだけをフィルタリングできました。

 

 

 

◆先頭を定義する ^

 

アドバンスフィルタに / を入力した場合、

/を含むページがすべてフィルタリングされてきます。

それでは、/(スラッシュ)一文字のページだけを抜き出すにはどうしたらよいでしょうか。

下記の図のように^/$を指定すれば大丈夫です。

 

 

 

◆または、 を意味する |  (パイプ)

 

タグマネージャ/でピッタし終わるページと、/info/2015/08/14を含むページのみを抜き出すには

どうしたらよいでしょうか?

 

 

 

ちなみに、AND(かつ)でフィルタリングする場合は、すなおに、AND条件を使ってください。

むずかしく考える必要はありません。

また、”一致”と表示されているプルダウンに”除外”といった選択肢が用意されております。

除外を選択して使用した場合は、正規表現パターンに一致した文字列が除かれます。

※Googleアナリティクスでは、否定的先読み表現という正規表現が使えません。例)^(?!https).*

 

 

Googleアナリティクスでは、ほかに

数字を表す   \d (円マークと数字を意味するd)  という特殊文字があります

products.php?num=999999

products.php?num=88888a

 

numが数値のものだけを抜き出すには、

num=\d+$とすれば、

products.php?num=999999が抽出できます。

 

 

◆その他、正規表現上の特殊文字の種類

 

 

. ドット

: 空文字列を含む、任意の一文字

 

 

\s 円s

: 空白文字1文字

 

 

^ べき乗

: 先頭を表す

 

 

$ ドル

: 行末を表す

 

 

\w 円ダブリュー

: 単語構成文字(英大文字小文字および、数字)

 

 

\d 円ディー

: 数字1文字

 

 

*  アスタリスク

:直前の文字の0回以上の繰返し

例) .* ドットとアスタリスク : 任意の一文字を0回以上繰り返す、つまり全文一致

 

 

+ プラス : 直前におかれている文字の1回以上の繰返し

例) .+ ドットとプラス :任意の文字を1回以上繰り返す

 

 

?  直前の要素の0回または、1回の出現を表す。繰り返しではない点に注意。

例) AA? エーエーはてな : Aもしくは、AAにヒットするが、AAAにはヒットしない。要注意!

 

 

[] カッコ

:文字クラス([]の中の文字のいずれかに一致する

例) [ABCDE] A~Eのいずれかに一致させる。[A-E]でも同じ意味。

 [^ABCDE] カッコの中の^は、ABCDE以外を指す。先頭を表す^とは別の意味になる。

 

 

以上のように、正規表現を上手に使えるようになると、

データ収集が楽になるだけでなく、正規表現を用いないと収集できないデータ収集にも対応できるようになります。

 

他にも、アドバンスセグメントや目標設定時にも威力を発揮します。

下記で紹介する2冊の良書をお勧めします。しっかりと身につけてみてください。

 

 

正規表現の学習でお悩みの方は弊社講座をご受講ください。

Googleアナリティクスのための正規表現セミナー(3.0h)

 

 

  P222

モバイルバージョンを終了