こんにちは、株式会社ブレインパッド(以下、ブレインパッド)でソーシャルメディア分析を担当している福江です。

近年、ビッグデータ活用に対する機運が一段と高まっており、弊社でも様々な形でビッグデータの活用支援を行っています。

しかし、ビッグデータと一口に言ってもその種類や利用用途は様々であり、何となく意味を理解しているものの、実際にどのようなデータからどういった中身を引き出せるのか具体的なイメージが湧かない人もいるのではないでしょうか。

今回の記事では、身近なビッグデータである"ソーシャルビッグデータ"、いわゆる"SNSの分析データ"について、実際にTwitter全量分析ツールを用いた分析結果とともに説明します。
  

ソーシャルビッグデータについて

まずは、ビッグデータの概念についてご説明します。下記にて用語集に対する意味から理解していきましょう。

ビッグデータ
通常のデータベースでは、記録、保管、解析が難しいような巨大なデータ群のこと。

ビッグデータを定義する要素として、Volume(容量)、Velocity(頻度)、Variety(種類)の3Vが揃っていることが上げられるが、どこからがビッグデータなのかといった明確な定義はまだない。

Variety(種類)…構造的に形作られた「構造化データ」だけでなく、文書、画像、音声、動画、センサーデータなどの「非構造化データ」も処理対象になっている。
Velocity(頻度)…様々なモノがインターネットに繋がったことで、高頻度に発生するデータをリアルタイムに収集し、分析処理できるようになっている。
Volume(容量)…Variety(種類)が増え、Velocity(頻度)も増えた結果、扱うデータのVolume(容量)も激増しており、その容量は、数十テラバイトから数ペタバイトに及ぶと言われている。(テラは10の12乗、ペタは10の15乗)

引用元:株式会社ブレインパッド|ブレインパッド用語集

上述のとおり、ビッグデータは「容量」「頻度」「種類」と主に3つの要素で構成されます。その中でも、さらに「内部データ」と「外部データ」の2つに分類できます。

内部データとは、POSなどの購買履歴やCRM(顧客情報管理)データなど社内で収集・管理を行っているデータを指します。一方、外部データは自社ではなく、外部の会社が収集・管理を行っているデータです。

例えば、政府系機関、調査団体のデータや今回のテーマであるソーシャルメディアのデータを指します。

ソーシャルビッグデータの主なメリットは、以下の3つです。

● ソーシャルビッグデータの主なメリット

1. 過去に自社でデータを蓄積していなくてもデータ分析を行えること
2. 一般に公開されているデータを扱うため情報漏えいなどのリスクが低いこと
3. 顧客の生の声をリアルタイムで聴けること

特に3番目について、アンケートやインタビューでは質問者の設計に回答が左右されがちです。日本人は真面目な方も多いため、どうしても教科書的な発言が多くなります。

その反面、TwitterなどのSNSでは分析されることを前提に投稿しているわけではないため、リアルな意見が多くなり、既存の調査手法では聞くことが難しかったサイレントマジョリティーの声を拾いやすくなっています。
  

9,000億のTwitterデータを分析

今回は、日本人にとっても最も身近なSNSと言える、Twitterのデータを分析します。

実際に分析ツールを用いて、以下の条件で分析を行いました。
※本記事の分析結果は筆者が独自に分析したものであり、Twitter 社の公式な見解とは異なる可能性があります

分析(項目) 内容
分析期間 2010年10月1日~2017年10月31日までの7年間
分析言語 全言語
分析地域 全ての国
分析投稿数 約9,031億件

  

位置情報データ

ツイートには、その投稿がどこの場所から投稿したのか位置情報が付いています。

例えば、スマートフォンのTwitterアプリから投稿した場合、「位置情報サービスをオンにする」と設定していると、GPSなどから自動で現在地を特定しツイート情報の1つとして送信されます。設定によって位置情報サービスをオフにすることもできるため、全ての投稿に位置情報が紐付いているわけではないですが、今回の分析では半数以上の52%の投稿から位置情報を取得できました。

・位置情報の件数を可視化したもの(色が濃い国ほど投稿数が多い)
9035_001a.png

・投稿数上位10の国

順位 全体に占める割合
1 アメリカ 26.10%
2 日本 19.39%
3 ブラジル 7.45%
4 インドネシア 6.37%
5 イギリス 5.36%
6 アルゼンチン 2.76%
7 韓国 2.61%
8 スペイン 2.39%
9 トルコ 2.17%
10 サウジアラビア 1.91%

1位はTwitter発祥の国であるアメリカ、日本は2位につけています。意外にも3位にはブラジル、6位にはアルゼンチンという南米の国々がランクインしました。

こうした位置情報はグローバルなマーケティング施策を行う際に、どのSNSを使うとどの国の人々へリーチしやすいかを測ることができます。

注意点として、この結果は国別のユーザー数比率ではなく、あくまで位置情報を取得できた投稿数の割合です。そのため、例えば、日本人ユーザーがイギリスに旅行して、現地で観光体験などをツイートした場合、そのツイートの位置情報はイギリスとして判定されます。
  

位置情報データ × 言語情報

次に9,000億のTwitterデータから日本語の投稿のみを抽出します。抽出の結果、全体の17%にあたる約160億の日本語投稿が見付かりました。

さらに、約160億の日本語投稿から位置情報を取得し、日本語の投稿がどの国からされているのか調べたのが以下の結果です。

・日本語投稿数上位10の国

順位 全体に占める割合
1 日本 95.81%
2 韓国 1.67%
3 アメリカ 0.84%
4 ロシア 0.37%
5 インドネシア 0.27%
6 イギリス 0.20%
7 タイ 0.07%
8 ブラジル 0.07%
9 中国 0.06%
10 台湾 0.05%

1位は当然日本となり、2位は韓国、3位にアメリカと続きます。
これらの投稿は海外在住もしくは旅行中の日本人が投稿したもの以外に、現地の国の人々が日本語でツイートしたものも含まれています。
そのため、各国の在留邦人数、国別Twitterユーザー数以外に、日本語がどの国で浸透しているのかを測る指標にもなります。
  

頻出単語 × 投稿内容

投稿内容を読み解く場合、1件ずつツイートを読み込むこともできますが、9,000億件の投稿を全部見ていったら一生かかっても終わりません。

そこで投稿を単語単位に分解して、どんなキーワードがよく使われているのかを見付け、傾向を読み取ります。

基本は、自身が調べたいテーマに沿った分析キーワードを設定して、そのキーワードに関連する頻出単語を抽出するのですが、今回は特定のキーワードを指定していないため、全世界の全言語のツイートの全体的な傾向を読み取ります。

9035_002a.png

上図では文字の大きさが頻出度の高さを表わしています。「love」「good」などの英語以外に、「笑」「見る」など日本語の文字も含まれています。

興味深い点として、複数の「絵文字」が非常に多く使われていることです。絵文字は言語問わず、自身の感情を相手に表現できる手段であるため、Twitterのような多くの国のユーザーが利用する場ではとても有効です。絵文字付き投稿の中身を見ると、日本語以外に英語はもちろん、アラビア語、東南アジアの現地語、ロシア語、スペイン語など多種多様な投稿に使われていました。

ちなみに、日本から世界に広まった絵文字は海外でも「emoji」と表記され、英オックスフォード辞書にも登録されています。最近では、Apple社の最新機種「iPhone X」の新機能としてモーションキャプチャを利用した動く絵文字、Animoji(アニ文字)も登場しました。

このように、既存の言語では定義できない、デジタルの世界で利用される感情表現を読み取ることができるのも、ソーシャルデータ分析の特徴の1つと言えます。
  

まとめ

今回紹介した分析軸は、ソーシャルビッグデータ分析のほんの一部です。分析対象のSNSもTwitter以外に、Instagram(インスタグラム)、Facebook、ブログ、掲示板、レビューサイトなど多岐にわたります。

ビッグデータ分析”自体がまだ馴染みの薄い企業も多いなか、”ソーシャルビッグデータ分析”はさらに事例が少なくビジネスへの活用イメージが湧きにくいかもしれません。

しかし、スマートフォンとともにSNSが生活に密着している現代では、ソーシャルビッグデータは貴重な情報源であり、新たな顧客ニーズを発見する手がかりとなります。