突然ですが、「Webスクレイピング」という言葉をご存知でしょうか。

例えば、現存するWebサイトの一部分の要素を取り出して、そこをスマホ向けに改修するとします。その際、Webサイトの該当部分の情報・データを集めてきて、集計し、使える形に整形し直すことが可能なのがWebスクレイピングです。そして、Webスクレイピング専用のツールのことを「Webスクレイピングツール」といいます。

仮に、スクレイピングツールがなかったら、自らインターネット上に膨大な情報の中から、目的のデータを探し出し、抽出して、手作業で集計・整形しないといけません。
ただ、その際、Webスクレイピングツールであれば、Web コンテンツを自動で取得できるので、アッという間に解決することが可能です。このツールは、業務上、大幅な工数削減に役立つなど重宝します。

そこで本記事では、このように便利なWEBスクレイピングツールについて、概要の紹介、そして主なソフトウェアとの活用法を紹介していきます。

何が便利?スクレイピングツール

WEB ページからデータを収集して、目的に応じた利用しやすい形式に整形してくれるスクレイピングツール。こちらは冒頭でも説明したとおり、インターネットでデータ収集を行う上で非常に役に立つツールです。

本章では、Webスクレイピングツールの具体的な活用方法をご紹介していきます。

あると便利!オススメのスクレイピングツールを紹介

1. Octoparse

スクリーンショット_2018-07-17_10.18.13.png
http://jp.octoparse.com/

こちらはPCにインストールして使う無料のWEBスクレイピングツールで、有料オプションもあり、抽出タスクの登録数が増えるなど機能が追加されます。ただ無料版のままでも「単一ページ上のデータ抽出」「リンクからたどったデータ抽出」などといった十分な機能を持っています。
基本的な使い方としては、URLや公開日など登録したタスクを作成し、コードを書いたりなどという面倒な作業も必要ないので非常に便利です。

2. ScraperWiki

02_ScraperWiki.JPG
https://scraperwiki.com/

ScraperWikiは、スクレイピングを行うためのプログラムコードを共有するためのサービスです。ソースコードの共有と言えばGithub等を思い浮かべる方が多いと思いますが、こちらはスクレイピングコードに特化して、PHP, Ruby, Pythonで書かれたコードを自由に編集し、実行することができます。
実際にコードを実行してスクレイピングをすることもでき、他人が取得したデータも見られるので、スクレイピングデータのライブラリ的に利用することも一つの手段といえます。

3. WebSundew

03_WebSundew.JPG
http://www.websundew.com/

WebSundewは、Eclipseをベースにしたスクレイピングのための統合開発環境(IDE)です。IDEといっても、基本的にはコードを書かなくてもGUI画面から直感的な操作が行えるようになっています。Octoparseと同様に「コードが上手く書けない」、「コードを書く時間がない」という方にとって、非常に重宝するツールといえます。

4. WP Web Scraper

04_WP_Web_Scraper.JPG
https://it.wordpress.org/plugins/wp-web-scrapper/

WP Web Scraperは、WordPressプラグインです。使い方は簡単で、WordPressに組み込むことで投稿されたページなどから自在にデータをスクレイピングすることができます。
普段からWordPressを活用するシーンの多い方にとっては、このスクレイピングツールを活用することをオススメします。

5. Scraper

05_Scraper.JPG
https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?hl=ja

先ほどのWP Web ScraperがWordPressプラグインだったのに対し、こちらはGoogle Chromeのプラグインの一つです。Scraperはインストールが簡単で、複雑な操作・設定手順もありません。シンプルにChromeに組み込むだけで、テーブルデータやAIリンクデータを片っ端から保存することができます。Scraperのメリットは、取得したデータをそのままGoogleスプレッドシートに保存することができる点で、GoogleAppsやGoogleカレンダーなどGoogle連携機能が使える点が魅力です。