ソーシャルリスニングではデータのクレンジングも重要

ソーシャルリスニングをする際に、常に向き合っていかなければいけない命題があります。それがデータのクレンジングです。
ソーシャルメディア上から文字列ベースで検索をかけ投稿を取得するため、同音異義語などの判別が必要になってきます。

例えば僕は明治エッセルスーパーカップというアイスが大好きなのですが「スーパーカップ」単体で調べてみると、実はカップラーメンにも「スーパーカップ」という人気シリーズが存在します。またスポーツの大会でも「スーパーカップ」という言葉が使われる場合があります。

別の例でいうと炭酸飲料のコカ・コーラはとてもメジャーなワードであり、それ自体がユニークな単語です。しかし、社名とブランド名が同一であり、コカ・コーラ社の事業に関して全てが一致してしまいます。炭酸飲料にフォーカスして調査したい場合、その他の事業に関する投稿は無関係な投稿として除外しなくてはなりません。

このように一つの検索キーワードでも関係のない投稿まで検知してしまうことが多々あるのです。キーワードをコントロールするなどして、調査に不必要な投稿を除外していくことを、データのクレンジングと呼んでいます。

除外ワードを設定し、調節をする

では具体的にどのようにクレンジングしていくのでしょうか?
メインキーワードに対して掛け合わせのキーワードを設定する説明はすでにしましたが、同時に「除外キーワード」を設定することもできます。
キーワードを元に引っかかってくる検索結果の中から、除外キーワードに引っかかるものはカウントしないという機能です。

この除外キーワードを設定することで無関係な投稿を削ぎ落とし、必要な投稿だけを抽出することができます。

スーパーカップの例でいうと、「スーパーカップ」というメインのキーワードから、カップラーメンの話題、スポーツの話題に関するキーワードを除外キーワードに設定します。
スーパーカップ.jpg

このキーワードリストでの検索結果の中身を確認し、まだ無関係な投稿があれば新たに除外キーワードを増やしてい区ことで、より正確なデータ抽出を目指します。
キーワードの性質にもよりますが、やはり最初はこの除外キーワード設定にすごく時間がかかるものです。しかし、1度設定してしまえば繰り返し使えるものですので、くまなくしっかりとキーワードリストを作り上げましょう。

ちなみにこの除外キーワードというのは、Google検索やTwitterの検索窓でも同じ機能があります。検索キーワードの前に「-」をつけると、その単語が含まれるページや投稿が表示されなくなります。知らなかったという人は、まずGoogle検索で試してみてはいかがでしょうか。

まとめ

リスニング専用ツールとしてお金を払って導入してしまうと、萎縮してしまう方も多いかもしれませんが、検索の基本的な考え方はみなさんが普段から使っているGoogleとなんら変わりありません。

ソーシャルリスニングのツールというのは大枠で言ってしまうと検索ツールとしての箱でかないのです。「こういうふうに調べれば、こういう結果が得られるだろう」というようなほんの少し論理的思考ができれば、後は普段の検索エンジンを使う要領で気軽に利用できます。