Googleスプレッドシートには、シート内に入力内容のルールを設定することで、作業を簡略化してくれる関数が多く備わっています。

シート内の値を大きい順に並べてくれる簡単なものから外部からデータを引っ張ってこれる簡易的なプログラムまで種類は豊富です。

日常的な事務作業にはもちろん、使い方次第では情報収集ツールにもなり得ます。今回は、中でもサイト内の情報を取得できるIMPORTXML関数について紹介します。

競合サイトの情報を簡単に取得できる! IMPORTXML関数とは?

a.png

IMPORTXML関数は、大きく分けて3つの手順に沿って使っていきます。

1. データを取得したいサイトを決める
2. サイト内で取得したい箇所のデータ(Xpath)を見つける
3. IMPORTXML関数の文法に沿って、Googleスプレッドシート上で内容を出力したいページのURLと2で見つけたXpathを記述し、取得したデータをGoogleスプレッドシートで出力する

Xpathの見つけ方

データを取得したいサイトを決められたら、次にXPathを抽出していきます。

b.png

データを取得したいサイトのページで「F12」のボタンを押し、デベロッパーツールを起動します。

c.png

「Ctrl」+「F」キーを押し、XPathを探すのに必要な検索ボックスを表示させます。

検索ボックスが表示できたら、取得したいタグを検索します。例えば、記事のタイトルを取得したいなら「title」、ディスクリプションを取得したいなら「description」など。
※ちなみに、ここでは例として「記事タイトル」を取得するため「title」を検索します。

d.png

取得したい値に合わせた項目を検索ボックスへ打ち込み探しましょう。

e.png

すると、該当箇所がマークされるので、マークされた箇所を右クリック。
「Copy」>「Copy XPath」を選択します。これでXPathが取得できました。

記事タイトルの取得方法

XPathが取得できたら、さっそくスプレッドシート上に記事タイトルを反映させていきましょう。

f.png

スプレッドシートを開き、情報を取得したいページURLを入力。
その隣に「=IMPORTXML(情報を取得したいページURLが貼られたスプレッドシード上のシート番号,"先ほどコピーしたXPath")」をそれぞれ記載します。

g.png

最後にEnterを押せば、記事タイトルが取得できます。

ちなみに、取得する箇所によっては、正しく反映されなく、空白のまま出力されてしまうところもあります。その場合は、取得する箇所をもう一度見直し、代替してデータを取得できる箇所がないかどうかも探してみましょう。