2016年11月に行われたアメリカ大統領選挙にて、「世論調査と投票結果が大きく乖離している」ことが大きな話題となりました。

参考:
制度や世論調査の盲点影響か=「クリントン氏優勢」予想-米大統領選:時事ドットコム

様々な調査機関が世論調査を実施し、どこも「クリントン氏優勢」と報じていたのに、実際はトランプ氏の圧勝に終わりました。
なぜこのような食い違いが起きてしまったのでしょうか?

このような食い違いは、アメリカ大統領選のような大規模な調査に限った話ではありません。
アンケート調査の結果を分析して導き出された結論が、実は誤りだっというケースは往々にしてあります。
「実際に調査して得た数字だから」と安心せず、そもそもの分析方法が正しいかどうかを精査する必要があります。

今回は、統計学から見るアンケート調査の数字の落とし穴について解説します。
ビジネスの重要な決断にも関わるかもしれない調査の分析で、誤った結果を提案しないように数字のトリックについて一緒に学びましょう。

「アンケート調査は真実を写す鏡」と思い込まない

アンケート調査は、ユーザー情報を得るためのスタンダードな手法です。
企業だけでなく、世論調査や国勢調査など世の中では多くの調査が行われていますが、調査結果は必ずしも正確であるとは限りません。

直近の事例として、冒頭でもご紹介した2016年11月8日に行われたアメリカ大統領選の世論調査が挙げられます。
調査機関や大手メディアによる調査では、クリントン氏の支持率の方がトランプ氏より大幅に高く、多くの専門家はクリントン氏の当選を予測していました。

しかし蓋を開けてみると、トランプ氏の圧勝という世論調査とは大きく異なる結果となりました。

回答者が体面を気にして虚偽の回答をしていた可能性や、メディアの見解と実態が乖離していたなど、様々な要因が考えられますが、複数の大手メディアや調査機関による事前調査のデータが、選挙結果と大きく異なったことは事実です。

このように、調査によって導き出された数字だけを見ても実態にたどり着けない場合があります。
調査を行うときは、自分の主観を裏付けるような調査に陥っていないか、調査対象が持つ背景などを想像しながら設計と分析を行う必要があります。

参考:
[取材で感じた"隠れトランプ"の切実さとメディア不信]
(http://www.huffingtonpost.jp/tomoko-nagano/hidden-trump-supporters-and-media-distrust_b_12906242.html)
世論調査はなぜ間違えたのか――CNNのキャスターが大統領選挙を振り返る|IT&ビジネス 業界ウォッチ|ダイヤモンド・オンライン

抽出するサンプルの数と種類に注意

「データは嘘をつかない」という言葉がありますが、データの取り方や分析方法によっては現実と異なる結果を導いてしまいます。

調査を行う対象を抽出することをサンプリングといい、調査設計の上でとても大切な要素です。
サンプル(回答された数値や内容)を見る前に正しいサンプリングが行われているのか、特に以下の2点に注意しましょう。

1.調査対象の生活環境を考慮する

インターネット調査で陥りがちなサンプリングの失敗例が「パソコンを利用しない人に関する調査を行ってしまうこと」です。
極端な例をあげると「高齢者がインターネットを利用しない理由」について調査したいとき、インターネットのシステムを利用した調査を行うのは間違いだと言えるでしょう。

また「1,000人を対象に街頭アンケートを行いました」と聞くと、世論を反映したデータとして信憑性があるように感じてしまいます。
数字が大きくても、街頭アンケートが渋谷や巣鴨など特定の年代の利用者が多い街であれば、そのデータには偏りがあることを意識しましょう。

実際にアンケートを行う際には自社が実態を知りたいと感じている対象はどこにいて、何人に調査を行うのが正しいのかを精査する必要があります。

2.サンプルの数はある程度の大きさを保つ

分析を行う際には、調査を行った元の数字をパーセンテージに変換することもあります。
この際には元の数字が、パーセンテージで表示するに足る母数が存在しているのかをチェックするようにしましょう。

例えば「30代女性のうちA商品に対して「購入したことがある」と回答した人は全体のうち10%に登りました」と分析する前に、30代女性はそもそも何人いたのか考える必要があります。
もし、30代女性全体が10名しかいなかった場合、1名でも10%になってしまいます。
偶然現れた1名の意見を世の中全体の意見として見るのは間違いであることは明らかです。

平均値を出すときは、元データの「数字のばらつき」に注意

アンケート調査では、データの平均値を算出して標準的な数値を導き出そうとすることもあるでしょう。
平均値を見るときは、回答された元の数字にばらつきがないか注視する必要があります。

160㎝が10人いるグループと、170㎝が5人、150㎝が5人いるグループでは共に平均身長はは160㎝である

このように、グループの実態が大きく違っても平均値は同じになってしまうことがあります。
平均値は、全てのサンプルを合計した数値からサンプルの数を割って出す数値です。
そのため、サンプル内の凹凸には気づきにくいという性質があります。

例えば、スーパーの平均利用回数を出す際に1人だけ月に60回以上利用していた場合、それ以外の人が月1回しか利用していなくても平均値は跳ね上がってしまいます。

実情を把握する際には平均値の代わりに「中央値」を算出するのも1つの手段です。
中央値とは、全サンプルの真ん中にある数値を指します。
特に格差が激しく出ている数字については、中央値を用いるとより標準的な回答結果を導き出せます。

平均値を出して「これが標準的なユーザーの姿だ」と安心することなく、調査の元の数字とも向き合うようにしましょう。

参考:
総務省統計局データサイエンススクール
なるほど統計学園

企画の目的を立てることが調査成功への第一歩

調査を行う前に気をつけなくてはいけないことが一つあります。
それは調査の企画や設計をきちんと練ることです。

サンプリングのミスは調査設計の時点で防ぐこともできます。
どのようなデータが欲しいのか、目的を明確にすることで、情報の精度も上がることを意識しておきましょう。

参考:
統計のできるまで

まとめ

アンケート調査は手軽に消費者のニーズを探れるため、マーケティングではよく使われる手段です。
一方では、数字だけを見て誤った判断を行ってしまう危険性の高い分野でもあります。

このような、調査に関わる数学の体系は統計学といい、データの溢れる現代を生きるビジネスマンにとって重要な知識の一つとなりつつあります。
統計学に関して数多くの書籍が存在します。ぜひ今回学んだ数字のトリックだけでなく、自分の業務に関わる統計の仕組みについて学んでみましょう。