Google History のRSS – 履歴とその検索結果

昨日の 見たページぜんぶの履歴が残せて、その履歴だけからGoogle検索できる Google History ですが、今日履歴を見てみたら

こんなかんじに。
ブラウザの履歴と同じ情報が載っているだけですが、見た時間とページのタイトルがセットで表示されていることで”ログをとっている”感がでてきてたまりません。ログを見ればその日いちにち何をやっていたかが一目瞭然です。

そうなると、このデータをもとに何かしたくなるのが人情というもの。やろうと思えばローカルのヒストリファイルから File::Mork なんかを使って読み出して加工するなんて前からできたことですが、時系列でデータを見るとなぜか楽しくて、楽しいとわかるとなにかやりたくなるのはロガーの血なのでしょうか。

で、すごいことにそんなひとのために、この見たページの履歴がRSSで用意されています。
ちゃんとgoogleのヘルプページの Can I get an RSS feed of my web history? に書かれています。
googleのアカウントにログインするときの認証情報を使って https://www.google.com/history/?output=rss にアクセスすると、アクセスしたページのヒストリをRSS2.0で取得することができます。
wgetでやるならこう。

wget --http-user='username@gmail.com' --http-passwd='password' \
  'https://www.google.com/history/lookup?hl=en&output=rss'

curlはデフォルトではリダイレクト先を取得しにいかないので、オプション -L をつけて

curl -L --basic --user 'username@gmail.com:password' \
    'https://www.google.com/history/lookup?hl=en&output=rss'

で取得できます。

生の閲覧履歴がRSSで取れるだけでなく、履歴を特定のキーワードで検索した結果のRSSも取得することができます。

wget --http-user='username@gmail.com' --http-passwd='password' \
  'https://www.google.com/history/find?hl=en&output=rss&q=perl'

にすると、履歴の中からperlが入っているものだけのRSSが取得できます。ごちゃごちゃするので省略してますが、日付で範囲を指定して検索することも可能。

下がperlをキーワードにして自分の履歴を検索してみた結果です。

  <channel>
    <title>Google - Web History - search results for perl</title>
    <link>http://www.google.com/searchhistory/</link>
    <description>Google - Search History RSS feed</description>
    <item>
      <title>WWW::Mechanize SeleniumIDE API - bits and bytes</title>
      <link>http://labs.gmo.jp/blog/ku/2007/04/wwwmechanizeseleniumideapi.html</link>
      <pubDate>Wed, 25 Apr 2007 2:42:39 GMT</pubDate>
      <category>browser result</category>
      <description> perl ...</description>
      <guid>H8AuRqHzFICAgLAPAA</guid>
    </item>
    <item>
      <title>Gisle Aas / URI - search.cpan.org</title>
      <link>http://search.cpan.org/dist/URI/</link>
      <pubDate>Wed, 28 Dec 2005 1:18:28 GMT</pubDate>
      <category>web result</category>
      <description>URI::snews. URI::ssh. URI::telnet. URI::tn3270. URI::urn. URI::urn::isbn. URI::urn::oi
d. hosted by perl.org, hardware provided by Online Shopping Shopping.</description>
      <guid>9PWxQ8j4OoCAgLAPAA</guid>
      <smh:query_guid>0vWxQ9__GIr2owLy3735Dg</smh:query_guid>
    </item>

日本語は苦手みたいで、日本語の入っていたところは0×20におきかえられちゃいました。hl=enの副作用でしょうか。
categorybrowser result というのは、ブラウザの履歴の中でperlにヒットしたページなのを意味していて、web result のほうはGoogleで検索した履歴の中でperlにヒットしたページなのを意味しています。

うーん、googleがこういうデータを持っているのはアタマの中ではわかっていたけど、実際にこうして目で見てみるとすごい…


About this entry