Webクローラー活用セミナーに行ってきました!

みなさん、こんにちは!

DATUM STUDIOに最近入社しました山本一郎です。前職は漫画家で、趣味はシュノーケリング、特技はビールの醸造です。

今回は、DATUM STUDIO主催「Webクローラー活用セミナー ~クローラーとTableauのおいしい関係~」を開催しましたのでレポートをお届けします。

この日は、数十年ぶりの早い時期での初雪にも関わらず、多くの方にお越しいただきました。

 

%e6%88%b8%e5%b6%8b%e3%81%95%e3%82%93%e3%82%bb%e3%83%9f%e3%83%8a%e3%83%bc

 

今回お越しいただいた皆さんは、クローラーという言葉は知っているけど、実際作ったことはないという方がほとんどでした。

さて、内容ですが下記のアジェンダで進みました。

 

・クローラーとは?

・Tableauとは?

・事例1 Google トレンドクローラーを活用したトレンド分析

・事例2 技術ブログサイトクローラーによる技術トレンド推移分析

・事例3 ECサイトの販売在庫トレンド推移分析システム

・まとめ

 

【クローラーとは?】

クローラーとは、ウェブ上のあらゆる情報を自動的に取得し、データとして蓄積するためのシステムのことです。人が手動で行うと手間も時間もかかり、取得できる情報量も限りがありました。しかしクローラーを構築すれば、大量のデータをすぐに取得でき、リアルタイムでデータを更新することで、時系列ごとに情報を比較することが可能となります。

 

【Tableauをなぜ使うの?】

そもそもTableauとは、BIツールの一つで、データをグラフなどで可視化することができるツールです。

%e6%88%b8%e5%b6%8b%e3%81%95%e3%82%93%e3%82%bb%e3%83%9f%e3%83%8a%e3%83%bc2

クローラーにより取得したデータをできるだけ見やすくしたい、というときに、このツールが最適である、と考え、セミナーでも紹介させていただきました。

 

【三つの事例を紹介】

では、クローラー、Tableauの基礎を理解したところで、実際にクローラーを作ってみます。

クロールして得たい情報によって、クロールするサイトを選ばなければなりません。そして、クロールするサイトごとに、作り方(基盤構築+クローラー構築+ビューの構築)は変わります。情報の種類ごとに適切なビューを設定してあげなければなりません。

というわけで、セミナーでは代表的な三つの事例を紹介しました。

ここからは参加者の方にも弊社のデモクローラーを触っていただきながらデータを見ていただきました。座学だけでは眠くなってしまいますからね!(いつも途中で漫画書いちゃってる僕には最高のタイミングでした!)

 

【事例1 Google トレンドクローラーを活用したキャストトレンドの算出】

まずはGoogleトレンドのクローラーです。

「Googleトレンド」という、一つの単語がグーグルでどれだけ検索されたかをグラフ化するサイトがあります。たとえば、みんな大好きな「道重さゆみ」で見てみましょう。(家にテレビがない僕は知りませんでした)

下の図のように、卒業前は大きく上昇した、つまり多くの人に検索されたものの、そこから約2年間は活動休止状態に。そして再び2016年10月ごろにブログを更新し始めたあたりからグラフも大きく上昇しています。

%e6%88%b8%e5%b6%8b%e3%81%95%e3%82%93%e3%82%bb%e3%83%9f%e3%83%8a%e3%83%bc3

このサイトを活用することで、今話題のヒト・モノをサーチし、トレンドを知ることでマーケティング施策などに生かすことができます。

しかし、このサイトの仕様では五つまでしかキーワードを設定・取得できず、大量のデータを一度に取得するには困難です。

そこでクローラーを作りました。手法については割愛させていただきますが、実際のデモビューはこちら

%e6%88%b8%e5%b6%8b%e3%81%95%e3%82%93%e3%82%bb%e3%83%9f%e3%83%8a%e3%83%bc4

このように、話題になったヒト・モノをキーワードとして設定し、比較することが可能になりました。

 

【事例2 技術ブログサイトクローラーによる技術トレンド推移分析】

続いては、技術ブログサイトを解析して、技術トレンドの推移を自動的に取得できないか、という試みのもと構築されたクローラーです。

当サイトもかつては技術ブログ的な面を持っていました…(最近知りました。というか最近入社したので当然ですが・・)

%e6%88%b8%e5%b6%8b%e3%81%95%e3%82%93%e3%82%bb%e3%83%9f%e3%83%8a%e3%83%bc5

※弊社サイト「楽屋」より

このような感じでコードを紹介するものが技術ブログです。世に出ている技術ブログを「特徴語」で絞込み、時系列ごとに件数を並べると以下のようになります。

%e6%88%b8%e5%b6%8b%e3%81%95%e3%82%93%e3%82%bb%e3%83%9f%e3%83%8a%e3%83%bc6

このグラフ推移から、今までどんな記事が書かれているのか、流行っているのかがわかる、という仕組みです。トレンドを探る、という側面では事例1のGoogleトレンドのクローラーと同じですが、こちらは多くのサイトが対象となっています。

 

【事例3 ECサイトの販売在庫トレンド推移分析システム】

最後に紹介する事例は、ECサイトからクロールし、ある店舗の在庫数を知り、今売れ筋の商品を探る、というものです。店舗別・商品別で在庫数を取得・表示させるクローラーを構築しました。できあがったのは以下の通りです。

%e6%88%b8%e5%b6%8b%e3%81%95%e3%82%93%e3%82%bb%e3%83%9f%e3%83%8a%e3%83%bc7

このように、カテゴリごとの在庫数を時系列ごとで比較できるようになりました。この場合はカテゴリ別(トップス、ボトムスなど)で取得していますが、キーワードを商品別に設定し、商品ごとで比較することももちろん可能です。

 

【まとめ】
これらの三つのクローラーから、自社では取得できない最新データを収集することができるようになりました。みなさんも、用途に合わせて取得すべきデータ・サイトをきちんと選定し、クローラーを作ってみてください。

いかがでしょうか?

また、それ以外のサイトでもクローラーを作りたい、という企業様にはクローラー構築サービス、ハンズオンセミナーを提供しています。ご興味のある方は是非お問い合わせください。

 

<<告知>>
12月にPythonを使った分析基礎を学ぶセミナーを行います。

タイトル:データサイエンティストのためのハンズオンセミナー~Pythonで分析基礎を学ぶ!~

日時:2016/12/10 (土) 11:00 ~ 18:00

2016/12/18 (日) 11:00 ~ 18:00

場所:AP渋谷道玄坂渋東シネタワー

料金:8000円 ※お弁当、お茶代込み

 

参加申し込みは下記からお願いします。

URL:

2016/12/10 (土) 11:00 ~ 18:00 ⇒ こちらから
2016/12/18 (日) 11:00 ~ 18:00 ⇒ こちらから

データサイエンスに興味のあるかたはぜひご参加ください!

学生にもビジネスパーソンにも楽しめるセミナーとなっております。

それでは、チャオ!