Google Analytics の解析から「?fb_xd_fragment=」を除外する 他

Facebook

Google Analytics のリアルタイム解析を眺めていると一気に80件くらいのアクセスがあり、おかしいなと思っていたら URL に「?fb_xd_fragment=」というのがついていました。名前からして Facebook の何かなんですが、調べてみるといいねボタンのバグとのこと。

多分「誰かがいいねをしてくれたんだけど Facebook がページの情報を取得出来なくて何度もアクセスしてきた」って感じでしょうか。今回はこれを除外するついでに Google のキャッシュと翻訳ページも除外したいと思います。

?fb_xd_fragment= の除外

Google Analytics でフィルタを作成します。So-net ブログではこんな URL になります。

http://blogname.blog.so-net.ne.jp/articlename?fb_xd_fragment=

このくらいなら正規表現使うほどでもないので「既定のフィルタ」でいいと思います。「?」をバックス ラッシュでエスケープしないと登録出来ないかもしれません。
※リクエスト URI で除外しないと上手く弾けないようです(2012年05月13日修正)

  1. カスタム フィルタ
  2. 除外
  3. リクエスト URI
  4. \?fb_xd_fragment=

Google のキャッシュ サーバと翻訳サーバからのアクセスを除外する

これは一応、「キャッシュや翻訳をしているユーザーがいる」という指標にもなるので除外するかどうかは好みかもしれません。URL のパターンはこんな感じ。

/search?q=cache:Z8MjDhhx6rsJ:blogname.blog.so-net.ne.jp/articlename+検索キーワード&cd=6&hl=ja&ct=clnk&gl=jp&lr=lang_ja

/translate_c?hl=en&prev=/search?q=検索キーワード&hl=en&prmd=imvns&rurl=translate.google.com&sl=ja&u=http://blogname.blog.so-net.ne.jp/articlename&usg=ALkJrhhmJ4BVhZ4JCRk7FkwfuK6EPcVEtg

この URL は So-net ブログ上には存在しないので「ホスト名」で除外した方がいいかなと思います。不明なページは詳細を開いて「セカンダリ ディメンション」を使うことでホスト名を調べることが出来ます。

カスタム フィルタの「フィルタ パターン」の欄は正規表現になっているので「.」はバック スラッシュでエスケープしておきます。

キャッシュ サーバ webcache.googleusercontent.com

  1. カスタム フィルタ
  2. 除外
  3. ホスト名
  4. webcache\.googleusercontent\.com

翻訳サーバ translate.googleusercontent.com

  1. カスタム フィルタ
  2. 除外
  3. ホスト名
  4. translate\.googleusercontent\.com

ひとつのフィルタにまとめたい場合は (translate|webcache)\.googleusercontent\.com と設定してもいいかもしれません。