Googleスプレッドシートには、シート内に入力内容のルールを設定することで、作業を簡略化してくれる関数が多く備わっています。

シート内の値を大きい順に並べてくれる簡単なものから外部からデータを引っ張ってこれる簡易的なプログラムまで種類は豊富です。

日常的な事務作業にはもちろん、使い方次第では情報収集ツールにもなり得ます。

今回は、中でもサイト内の情報を取得できるIMPORTXML関数について紹介します。

競合サイトの情報を簡単に取得できる! IMPORTXML関数とは?

a.png

IMPORTXML関数は、大きく分けて3つの手順に沿って使っていきます。

1. データを取得したいサイトを決める
2. サイト内で取得したい箇所のデータ(Xpath)を見つける
3. IMPORTXML関数の文法に沿って、Googleスプレッドシート上で内容を出力したいページのURLと2で見つけたXpathを記述し、取得したデータをGoogleスプレッドシートで出力する

Xpathの見つけ方

データを取得したいサイトを決められたら、次にXPathを抽出していきます。

b.png

データを取得したいサイトのページで「F12」のボタンを押し、デベロッパーツールを起動します。

c.png

「Ctrl」+「F」キーを押し、XPathを探すのに必要な検索ボックスを表示させます。

検索ボックスが表示できたら、取得したいタグを検索します。例えば、記事のタイトルを取得したいなら「title」、ディスクリプションを取得したいなら「description」など。
※ちなみに、ここでは例として「記事タイトル」を取得するため「title」を検索します。

d.png

取得したい値に合わせた項目を検索ボックスへ打ち込み探しましょう。

e.png

すると、該当箇所がマークされるので、マークされた箇所を右クリック。
「Copy」>「Copy XPath」を選択します。これでXPathが取得できました。

記事タイトルの取得方法

XPathが取得できたら、さっそくスプレッドシート上に記事タイトルを反映させていきましょう。

f.png

スプレッドシートを開き、情報を取得したいページURLを入力。
その隣に「=IMPORTXML(情報を取得したいページURLが貼られたスプレッドシード上のシート番号,"先ほどコピーしたXPath")」をそれぞれ記載します。

g.png

最後にEnterを押せば、記事タイトルが取得できます。

ちなみに、取得する箇所によっては、正しく反映されなく、空白のまま出力されてしまうところもあります。その場合は、取得する箇所をもう一度見直し、代替してデータを取得できる箇所がないかどうかも探してみましょう。

競合サイトの情報を取得する際に気をつけるべきポイント

競合サイトの情報を取得し調査できる何かと便利なIMPORTXML関数ですが、第三者のサイトの情報を利用する場合は、注意が必要です。

というのも、第三者のサイト情報を不正に使用することは、著作権法上の問題にもなり得るからです。また頻度高くサイト情報を定期的に収集する行為は、サイトへの負担もかかるため、最悪の場合、アクセス負荷により、サイトが表示されなくなってしまうことも……。

もしそうなった場合、偽計業務妨害罪としても訴えられる可能性があるので、利用には十分注意しましょう。

まとめ

今回は、競合調査に使える「IMPORTXML関数」について紹介しました。使い方次第で、競合サイトの情報を監視し続けられるのはもちろん、日々の情報収集の作業を短縮することも可能です。

簡単に競合サイトの情報を追いたいという方は、ぜひお試しください。