9,000億のTwitterデータから見るソーシャルビッグデータ分析
こんにちは、株式会社ブレインパッド(以下、ブレインパッド)でソーシャルメディア分析を担当している福江です。
近年、ビッグデータ活用に対する機運が一段と高まっており、弊社でも様々な形でビッグデータの活用支援を行っています。
Twitter広告ならこの資料をチェック!
広告のプロが解説する『Twitter広告はじめてガイド』をダウンロード
しかし、ビッグデータと一口に言ってもその種類や利用用途は様々であり、何となく意味を理解しているものの、実際にどのようなデータからどういった中身を引き出せるのか具体的なイメージが湧かない人もいるのではないでしょうか。
今回の記事では、身近なビッグデータである"ソーシャルビッグデータ"、いわゆる"SNSの分析データ"について、実際にTwitter全量分析ツールを用いた分析結果とともに説明します。
ソーシャルビッグデータについて
まずは、ビッグデータの概念についてご説明します。下記にて用語集に対する意味から理解していきましょう。
ビッグデータ
通常のデータベースでは、記録、保管、解析が難しいような巨大なデータ群のこと。ビッグデータを定義する要素として、Volume(容量)、Velocity(頻度)、Variety(種類)の3Vが揃っていることが上げられるが、どこからがビッグデータなのかといった明確な定義はまだない。
Variety(種類)…構造的に形作られた「構造化データ」だけでなく、文書、画像、音声、動画、センサーデータなどの「非構造化データ」も処理対象になっている。
Velocity(頻度)…様々なモノがインターネットに繋がったことで、高頻度に発生するデータをリアルタイムに収集し、分析処理できるようになっている。
Volume(容量)…Variety(種類)が増え、Velocity(頻度)も増えた結果、扱うデータのVolume(容量)も激増しており、その容量は、数十テラバイトから数ペタバイトに及ぶと言われている。(テラは10の12乗、ペタは10の15乗)
上述のとおり、ビッグデータは「容量」「頻度」「種類」と主に3つの要素で構成されます。その中でも、さらに「内部データ」と「外部データ」の2つに分類できます。
チャットボット運用で押さえておきたいポイントは?
業界別導入事例に学ぶ成功のポイントを資料でチェック
内部データとは、POSなどの購買履歴やCRM(顧客情報管理)データなど社内で収集・管理を行っているデータを指します。一方、外部データは自社ではなく、外部の会社が収集・管理を行っているデータです。
例えば、政府系機関、調査団体のデータや今回のテーマであるソーシャルメディアのデータを指します。
ソーシャルビッグデータの主なメリットは、以下の3つです。
● ソーシャルビッグデータの主なメリット
1. 過去に自社でデータを蓄積していなくてもデータ分析を行えること
2. 一般に公開されているデータを扱うため情報漏えいなどのリスクが低いこと
3. 顧客の生の声をリアルタイムで聴けること
特に3番目について、アンケートやインタビューでは質問者の設計に回答が左右されがちです。日本人は真面目な方も多いため、どうしても教科書的な発言が多くなります。
その反面、TwitterなどのSNSでは分析されることを前提に投稿しているわけではないため、リアルな意見が多くなり、既存の調査手法では聞くことが難しかったサイレントマジョリティーの声を拾いやすくなっています。
9,000億のTwitterデータを分析
今回は、日本人にとっても最も身近なSNSと言える、Twitterのデータを分析します。
実際に分析ツールを用いて、以下の条件で分析を行いました。
※本記事の分析結果は筆者が独自に分析したものであり、Twitter 社の公式な見解とは異なる可能性があります
分析(項目) | 内容 |
---|---|
分析期間 | 2010年10月1日~2017年10月31日までの7年間 |
分析言語 | 全言語 |
分析地域 | 全ての国 |
分析投稿数 | 約9,031億件 |
位置情報データ
ツイートには、その投稿がどこの場所から投稿したのか位置情報が付いています。
例えば、スマートフォンのTwitterアプリから投稿した場合、「位置情報サービスをオンにする」と設定していると、GPSなどから自動で現在地を特定しツイート情報の1つとして送信されます。設定によって位置情報サービスをオフにすることもできるため、全ての投稿に位置情報が紐付いているわけではないですが、今回の分析では半数以上の52%の投稿から位置情報を取得できました。
・位置情報の件数を可視化したもの(色が濃い国ほど投稿数が多い)
・投稿数上位10の国
順位 | 国 | 全体に占める割合 |
---|---|---|
1 | アメリカ | 26.10% |
2 | 日本 | 19.39% |
3 | ブラジル | 7.45% |
4 | インドネシア | 6.37% |
5 | イギリス | 5.36% |
6 | アルゼンチン | 2.76% |
7 | 韓国 | 2.61% |
8 | スペイン | 2.39% |
9 | トルコ | 2.17% |
10 | サウジアラビア | 1.91% |
1位はTwitter発祥の国であるアメリカ、日本は2位につけています。意外にも3位にはブラジル、6位にはアルゼンチンという南米の国々がランクインしました。
こうした位置情報はグローバルなマーケティング施策を行う際に、どのSNSを使うとどの国の人々へリーチしやすいかを測ることができます。
注意点として、この結果は国別のユーザー数比率ではなく、あくまで位置情報を取得できた投稿数の割合です。そのため、例えば、日本人ユーザーがイギリスに旅行して、現地で観光体験などをツイートした場合、そのツイートの位置情報はイギリスとして判定されます。
位置情報データ × 言語情報
次に9,000億のTwitterデータから日本語の投稿のみを抽出します。抽出の結果、全体の17%にあたる約160億の日本語投稿が見付かりました。
さらに、約160億の日本語投稿から位置情報を取得し、日本語の投稿がどの国からされているのか調べたのが以下の結果です。
・日本語投稿数上位10の国
順位 | 国 | 全体に占める割合 |
---|---|---|
1 | 日本 | 95.81% |
2 | 韓国 | 1.67% |
3 | アメリカ | 0.84% |
4 | ロシア | 0.37% |
5 | インドネシア | 0.27% |
6 | イギリス | 0.20% |
7 | タイ | 0.07% |
8 | ブラジル | 0.07% |
9 | 中国 | 0.06% |
10 | 台湾 | 0.05% |
1位は当然日本となり、2位は韓国、3位にアメリカと続きます。
これらの投稿は海外在住もしくは旅行中の日本人が投稿したもの以外に、現地の国の人々が日本語でツイートしたものも含まれています。
そのため、各国の在留邦人数、国別Twitterユーザー数以外に、日本語がどの国で浸透しているのかを測る指標にもなります。
頻出単語 × 投稿内容
投稿内容を読み解く場合、1件ずつツイートを読み込むこともできますが、9,000億件の投稿を全部見ていったら一生かかっても終わりません。
そこで投稿を単語単位に分解して、どんなキーワードがよく使われているのかを見付け、傾向を読み取ります。
基本は、自身が調べたいテーマに沿った分析キーワードを設定して、そのキーワードに関連する頻出単語を抽出するのですが、今回は特定のキーワードを指定していないため、全世界の全言語のツイートの全体的な傾向を読み取ります。
上図では文字の大きさが頻出度の高さを表わしています。「love」「good」などの英語以外に、「笑」「見る」など日本語の文字も含まれています。
興味深い点として、複数の「絵文字」が非常に多く使われていることです。絵文字は言語問わず、自身の感情を相手に表現できる手段であるため、Twitterのような多くの国のユーザーが利用する場ではとても有効です。絵文字付き投稿の中身を見ると、日本語以外に英語はもちろん、アラビア語、東南アジアの現地語、ロシア語、スペイン語など多種多様な投稿に使われていました。
ちなみに、日本から世界に広まった絵文字は海外でも「emoji」と表記され、英オックスフォード辞書にも登録されています。最近では、Apple社の最新機種「iPhone X」の新機能としてモーションキャプチャを利用した動く絵文字、Animoji(アニ文字)も登場しました。
このように、既存の言語では定義できない、デジタルの世界で利用される感情表現を読み取ることができるのも、ソーシャルデータ分析の特徴の1つと言えます。
まとめ
今回紹介した分析軸は、ソーシャルビッグデータ分析のほんの一部です。分析対象のSNSもTwitter以外に、Instagram(インスタグラム)、Facebook、ブログ、掲示板、レビューサイトなど多岐にわたります。
“ビッグデータ分析”自体がまだ馴染みの薄い企業も多いなか、”ソーシャルビッグデータ分析”はさらに事例が少なくビジネスへの活用イメージが湧きにくいかもしれません。
しかし、スマートフォンとともにSNSが生活に密着している現代では、ソーシャルビッグデータは貴重な情報源であり、新たな顧客ニーズを発見する手がかりとなります。
- ソーシャルメディア
- ソーシャルメディアとは、インターネット上で不特定多数の人がコミュニケーションを取ることで、情報の共有や情報の拡散が生まれる媒体のことです。FacebookやTwitterなどのほか、ホームページ上の掲示板もこれにあたります。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- データベース
- データベースとは、複数のアプリケーションまたはユーザーによって共有されるデータの集合体のことです。特定のテーマに沿ったデータを集めて管理され、検索や抽出が簡単にできるようになっているものを指します。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- インターネット
- インターネットとは、通信プロトコル(規約、手順)TCP/IPを用いて、全世界のネットワークを相互につなぎ、世界中の無数のコンピュータが接続した巨大なコンピュータネットワークです。インターネットの起源は、米国防総省が始めた分散型コンピュータネットワークの研究プロジェクトARPAnetです。現在、インターネット上で様々なサービスが利用できます。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- OS
- OSとはOperation Systemの略称です。パソコンやスマートフォンで操作した内容をアプリケーションに伝える役目を担っています。パソコン用ではwindowsやMac OS、スマートフォンではiOSやAndroidが有名です。
- CRM
- CRMとは、Customer Relationship Managementの略で、直訳すると顧客関係管理となります。
- ソーシャルメディア
- ソーシャルメディアとは、インターネット上で不特定多数の人がコミュニケーションを取ることで、情報の共有や情報の拡散が生まれる媒体のことです。FacebookやTwitterなどのほか、ホームページ上の掲示板もこれにあたります。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- アプリ
- アプリとは、アプリケーション・ソフトの略で、もとはパソコンの(エクセル・ワード等)作業に必要なソフトウェア全般を指す言葉でした。 スマートフォンの普及により、スマートフォン上に表示されているアイコン(メール・ゲーム・カレンダー等)のことをアプリと呼ぶことが主流になりました。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- マーケティング
- マーケティングとは、ビジネスの仕組みや手法を駆使し商品展開や販売戦略などを展開することによって、売上が成立する市場を作ることです。駆使する媒体や技術、仕組みや規則性などと組み合わせて「XXマーケティング」などと使います。たとえば、電話を使った「テレマーケティング」やインターネットを使った「ネットマーケティング」などがあります。また、専門的でマニアックな市場でビジネス展開をしていくことを「ニッチマーケティング」と呼びます。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- キャプチャ
- キャプチャとは、出力されたデータを別の機器で取り込み利用可能な状態にすることを言います。例としては、TV映像をパソコンに取り込み、その映像を保存(キャプチャ)し、パソコンで再生可能にすることなどです。ホームページの分野では、ブラウザなどでホームページのデザインを画像として保存することなどを指すこともあります。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- Twitterとは140文字以内の短文でコミュニケーションを取り合うコミュニティサービスです。そもそもTwitterとは、「小鳥のさえずり」を意味する単語ですが、同時に「ぺちゃくちゃと喋る」、「口数多く早口で話す」などの意味もあります。この意味のように、Twitterは利用者が思いついたことをたくさん話すことのできるサービスです。
- タグ
- タグとは、原義では「モノを分類するために付ける小さな札」のことです。英語の「tag」を意味するものであり、荷札、付箋といった意味を持っています。特にインターネットに関する用語としてのタグは、本文以外の情報を付与するときに用いられます。
- ブログ
- ブログとは、ホームページの一種です。運営者はブログシステムに登録し、利用開始をすることで、ホームページ制作のプログラム技術を修得する必要なく、本文のみを投稿しつづければ、公開・表示はおろかページの整理や分類なども効率的に行えるシステムを言います。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
- ビッグデータ
- ビッグデータとは、一般に、インターネットの普及とITの進化によって生まれた、事業に役立つ知見を導くためのデータのことを指します。「データの多量性」だけでなく、「多様性」があるデータを指します。
おすすめ記事
おすすめエントリー
同じカテゴリから記事を探す
カテゴリから記事をさがす
●Webマーケティング手法
- SEO(検索エンジン最適化)
- Web広告・広告効果測定
- SNSマーケティング
- 動画マーケティング
- メールマーケティング
- コンテンツマーケティング
- BtoBマーケティング
- リサーチ・市場調査
- 広報・PR
- アフィリエイト広告・ASP
●ステップ
●ツール・素材
- CMS・サイト制作
- フォーム作成
- LP制作・LPO
- ABテスト・EFO・CRO
- Web接客・チャットボット
- 動画・映像制作
- アクセス解析
- マーケティングオートメーション(MA)
- メールマーケティング
- データ分析・BI
- CRM(顧客管理)
- SFA(商談管理)
- Web会議
- 営業支援
- EC・通販・ネットショップ
- 口コミ分析・ソーシャルリスニング
- フォント
- 素材サイト
●目的・施策
- Google広告
- Facebook広告
- Twitter広告
- Instagram広告
- LINE運用
- LINE広告
- YouTube運用
- YouTube広告
- TikTok広告
- テレビCM
- サイト制作・サイトリニューアル
- LP制作・LPO
- UI
- UX
- オウンドメディア運営
- 記事制作・ライティング
- コピーライティング
- ホワイトペーパー制作
- デザイン
- セミナー・展示会
- 動画・映像制作
- データ分析・BI
- EC・通販・ネットショップ
- 口コミ分析・ソーシャルリスニング