9,000億のTwitterデータを分析

今回は、日本人にとっても最も身近なSNSと言える、Twitterのデータを分析します。

実際に分析ツールを用いて、以下の条件で分析を行いました。
※本記事の分析結果は筆者が独自に分析したものであり、Twitter 社の公式な見解とは異なる可能性があります

分析(項目) 内容
分析期間 2010年10月1日~2017年10月31日までの7年間
分析言語 全言語
分析地域 全ての国
分析投稿数 約9,031億件

  

位置情報データ

ツイートには、その投稿がどこの場所から投稿したのか位置情報が付いています。

例えば、スマートフォンのTwitterアプリから投稿した場合、「位置情報サービスをオンにする」と設定していると、GPSなどから自動で現在地を特定しツイート情報の1つとして送信されます。設定によって位置情報サービスをオフにすることもできるため、全ての投稿に位置情報が紐付いているわけではないですが、今回の分析では半数以上の52%の投稿から位置情報を取得できました。

・位置情報の件数を可視化したもの(色が濃い国ほど投稿数が多い)
9035_001a.png

・投稿数上位10の国

順位 全体に占める割合
1 アメリカ 26.10%
2 日本 19.39%
3 ブラジル 7.45%
4 インドネシア 6.37%
5 イギリス 5.36%
6 アルゼンチン 2.76%
7 韓国 2.61%
8 スペイン 2.39%
9 トルコ 2.17%
10 サウジアラビア 1.91%

1位はTwitter発祥の国であるアメリカ、日本は2位につけています。意外にも3位にはブラジル、6位にはアルゼンチンという南米の国々がランクインしました。

こうした位置情報はグローバルなマーケティング施策を行う際に、どのSNSを使うとどの国の人々へリーチしやすいかを測ることができます。

注意点として、この結果は国別のユーザー数比率ではなく、あくまで位置情報を取得できた投稿数の割合です。そのため、例えば、日本人ユーザーがイギリスに旅行して、現地で観光体験などをツイートした場合、そのツイートの位置情報はイギリスとして判定されます。
  

位置情報データ × 言語情報

次に9,000億のTwitterデータから日本語の投稿のみを抽出します。抽出の結果、全体の17%にあたる約160億の日本語投稿が見付かりました。

さらに、約160億の日本語投稿から位置情報を取得し、日本語の投稿がどの国からされているのか調べたのが以下の結果です。

・日本語投稿数上位10の国

順位 全体に占める割合
1 日本 95.81%
2 韓国 1.67%
3 アメリカ 0.84%
4 ロシア 0.37%
5 インドネシア 0.27%
6 イギリス 0.20%
7 タイ 0.07%
8 ブラジル 0.07%
9 中国 0.06%
10 台湾 0.05%

1位は当然日本となり、2位は韓国、3位にアメリカと続きます。
これらの投稿は海外在住もしくは旅行中の日本人が投稿したもの以外に、現地の国の人々が日本語でツイートしたものも含まれています。
そのため、各国の在留邦人数、国別Twitterユーザー数以外に、日本語がどの国で浸透しているのかを測る指標にもなります。
  

頻出単語 × 投稿内容

投稿内容を読み解く場合、1件ずつツイートを読み込むこともできますが、9,000億件の投稿を全部見ていったら一生かかっても終わりません。

そこで投稿を単語単位に分解して、どんなキーワードがよく使われているのかを見付け、傾向を読み取ります。

基本は、自身が調べたいテーマに沿った分析キーワードを設定して、そのキーワードに関連する頻出単語を抽出するのですが、今回は特定のキーワードを指定していないため、全世界の全言語のツイートの全体的な傾向を読み取ります。

9035_002a.png

上図では文字の大きさが頻出度の高さを表わしています。「love」「good」などの英語以外に、「笑」「見る」など日本語の文字も含まれています。

興味深い点として、複数の「絵文字」が非常に多く使われていることです。絵文字は言語問わず、自身の感情を相手に表現できる手段であるため、Twitterのような多くの国のユーザーが利用する場ではとても有効です。絵文字付き投稿の中身を見ると、日本語以外に英語はもちろん、アラビア語、東南アジアの現地語、ロシア語、スペイン語など多種多様な投稿に使われていました。

ちなみに、日本から世界に広まった絵文字は海外でも「emoji」と表記され、英オックスフォード辞書にも登録されています。最近では、Apple社の最新機種「iPhone X」の新機能としてモーションキャプチャを利用した動く絵文字、Animoji(アニ文字)も登場しました。

このように、既存の言語では定義できない、デジタルの世界で利用される感情表現を読み取ることができるのも、ソーシャルデータ分析の特徴の1つと言えます。