相関関係と因果関係を誤読してしまう理由

相関関係と因果関係を誤読してしまうのは、データ上では同様のものとして表示されてしまうからです。ビジネスでも同様のことはしばしば起こります。

例えば、ネットショップの利用回数と利用額の関係性を例に考えてみましょう。

ネットショップの利用回数と利用額に因果関係はある?

スクリーンショット_2017-03-17_14.21.55.png

上記は、ネットショップで商品を購入した顧客それぞれの「利用回数」と「利用額」をグラフにしたものです。このグラフをみると*「利用回数が多い顧客ほど、利用額が多い」という相関関係が見えます。ならばこの結果から「利用回数が多くなるほど、利用額が高くなっていく」*という因果関係を導き出していいのでしょうか。

その考察には検討の余地がありそうです。なぜなら*「利用額が高い=そのネットショップで気に入った商品が多い」顧客が、何度も利用している可能性*があるからです。つまり、最初から利用額の少ない=気に入った商品が少ない顧客は1、2回で利用をやめてしまい、最初から利用額が高い顧客だけが何度も利用しているだけかもしれません。

「利用回数が多いほど利用額が多くなるんだったら、利用回数を増やす施策を打てば利用額を増やせるだろう」と考えるのは誤りです。利用金額が少ない顧客に対してクーポンを発券して再度の利用を促しても、2回目にやってきた時に気にいる商品がなければ利用額は上がりません。

このように、一見原因と結果に見えるようなことであっても、因果関係があるとは限りません。

参考:
「相関関係」と「因果関係」の違いを理解すれば根拠のない通説にだまされなくなる!
散布図|なるほど統計学園高等部

正しい因果関係を見つけるためのポイントは?

正しい因果関係を見つけ出すには、どういった点がポイントとなるのでしょうか。それには大きく分けて4つのポイントがあります。

1.データの裏にある背景を考える

例えば、渋谷駅前のスクランブル交差点で交通量と年齢層の調査を行ったとします。その時「交通量が増加するのに伴って、交差点を通過する人の平均年齢が下がった」としましょう。そのことから*「交通量が増えるから、交差点を通る人の平均年齢が下がる」*と言っていいのでしょうか。

こんな時はデータのもとであるサンプルにはどんな背景があるのかを考えるようにしましょう。渋谷駅前のスクランブル交差点は、昼頃には周辺にあるオフィス街のサラリーマンも利用します。しかし、夜には高校生や大学生など多くの若者が繁華街であるセンター街に向かうでしょう。

その結果*「交通量の少ない昼の平均年齢は高くなり、交通量の増える夜には平均年齢が低くなる」*ことになります。交通量そのものが平均年齢を引きげているわけではないことがわかるでしょう。

2.相関関係にある2つの要素以外にも関わる要素がないか考える。

例えば、100人に対して血圧と所得額の調査を行ったとします。その時「血圧が高い人ほど、給与が高かった」という相関関係が生じた場合、「血圧が高い人ほど給与が高くなる」という因果関係を導くことはできません。

それは、年齢という3つめの要素を見逃しているからです。通常、年齢が高い人ほど血圧が高くなり、年齢が高い人は給与が高くなる傾向にあります。そのため、データ上では年齢が高い人ほど血圧が高くなるように見えてしまうのです。

*このように2つの要素以外に根本的な原因がある場合があります。*何か因果関係があると思ったら、他にも関わる要素がないかどうか考えてみるようにしましょう。

3.周辺のデータも合わせて確認する

因果関係を見つけ出した時には、もとにしたデータ以外にも根拠を強化する別データも探すようにしましょう。

例えば、複数の地域に対して電灯の数と犯罪発生件数の調査を行ったとき「電灯の数が多いほど、犯罪の発生件数は少なかった」とします。この時、他の地域・国での調査結果や、犯罪を行っている人のヒアリング調査など周辺にあるデータをもとにして、根拠の裏付けを行うようにしましょう。

4.十分なサンプルを用意する

どのような調査であっても、十分な数のサンプルを用意しなければ因果関係があるとは言えません。また、サンプルの属性が偏っている場合も、正しい因果関係が見つけられないことがあるでしょう。調査に見合ったサンプルを用意するように注意してください。