株式会社ロックオン、マーケティングメトリックス研究所の松本です。

以前、「箱ひげ図をマスターしよう!誰が見ても一瞬で伝わるレポート資料の作り方」というコンテンツで、箱ひげ図について紹介をさせていただきました。その結果、多くの方から「こんなグラフがあったのか!」「今まで知らなかった」という反響を聞きました。

そこで今回は、そもそも箱ひげ図ってどういう経緯で誕生したのかについてお話します。

参考:
「箱ひげ図をマスターしよう!誰が見ても一瞬で伝わるレポート資料の作り方」
  

誰が「箱ひげ図」を考え出したのか?

箱ひげ図をいったい誰が考え出したのでしょうか。それは、ジョン・テューキー(1915年〜2000年)という「イノベーター」の手によって生み出されました。

箱ひげ図は1977年にテューキーによって刊行された「Exploratory Data Analysis」に初めて登場します。つまり世の中に登場してから約40年しか経っていない、比較的新しいグラフなのです。

彼のどこが「イノベーター」だったのか。

それは、今までのヨーロッパ発の高尚な統計をアメリカ発の実務的な統計に転換したことであり、数学の延長にあった統計をデータ分析のための統計に再定義したことでした。いわば「既存」の業界に対してカチコミを行い、テューキーはそれに成功したのです。

"なぜ、テューキーは"既存の業界に反発したのでしょうか"
"なぜ、その過程で箱ひげ図が誕生したのでしょうか"

下記では、その"なぜ"について調べてみましたので、ご覧ください。
  

「どうすれば正しい仮説を持てるのか?」テューキーの悩み

1915年アメリカのマサチューセッツ州に生まれたテューキーは、第二次世界大戦後、当時世界最高峰とされたベル研究所に勤めます。ほかにも35歳という若さでプリンストン大学で数理統計学を教える教授に、さらにプリンストン統計局の初代局長に就任するなど多才な能力を発揮しています。

話は少し逸れますが、20世紀の科学史における天才とも悪魔とも称されるジョン・フォン・ノイマンと共同でコンピュータ設計を行っていた際、二進数字(binary digit)のことを略して「bit」と表すようになります。以降はコンピュータが扱うデータの最小単位のことをbitと言うようになりましたが、それはテューキーのおかげです。

テューキーは研究所に勤めて、数学の延長線上にあった「統計」を使って分析を続けていくうちに、徐々に既存の手法に対して限界を感じるようになっていきます。

当時、統計とは仮説検定という「最初に仮説を立て、その仮説が正しいのか間違っているのかを統計的に調べる手法」が主流でした。そして、データはその仮説が正しいのかを証明するために集められていました。

しかし、テューキーはこうした分析手法の限界を、次のような説明で遠巻きに批判しています。

Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise.

間違った質問に対する正確な解答よりも、曖昧であっても、正しい質問に対する近似的な解答のほうがずっとマシです。

※引用元:The future of data analysis

つまり、最初に設定する仮説を間違えれば、その後の解が正解だったとしても、問題の解決にはならないと訴えているのです。では、どのようにしてデータも集めていないのに「正しい仮説」を考えられるのか……。それがテューキーにとって悩みでした。

ちなみに、似たようなことをマネジメントの巨匠であるドラッカーが1954年に刊行した「現代の経営」で次のように述べています。

the important and difficult job is never to find the right answer, it is to find the right question. for there are few things as useless ( if not as dangerous ) as the right answer to the wrong question.

重要なことは、正しい答えを見つけることではない。正しい問いを探すことである。間違った問いに対する正しい答えほど、危険とはいえないまでも役に立たないものはない。

※引用元:The Practice of Management

ドラッカーの考えた「経営」の実践を、テューキーが同じように説いた点で、彼はすでにアカデミックな数学者・統計学者ではなくベル研究所で働くビジネスマンでした。
  

テューキー、既存の手法を守旧派扱いする

テューキーはこうした葛藤を、1961年に「The Future of Data Analysis」という1冊の書籍にまとめます。

書籍の冒頭で、テューキーは「数理統計学はデータ解析の実践と紐付かない限りは純な数学だ」と批判しました。統計学は役立たなければならないし、データ分析という環境で役立っていないことを強く訴えたのです

この瞬間、統計学は数学の延長という立場から切り離され、データ分析の実務に紐付いたと言ってもいいでしょう。

例えば、データの中に1つ外れ値が入っているだけでも、結果は大きく変わってくるのですが、それを除去しないのが旧来の統計学であり、テューキーらは「まずデータ自体を探索して、そのデータが異常値だと見なせるなら、取り除いた方が絶対良いだろ!」と主張したのです。

まずはデータを見る。はじめに仮説ありきではなく、まずデータを多角的な視点から捉える。先入観を持ってデータを見るのではなく、様々な視点から断面を眺めることで気付きを得ようとする。
テューキーはそれを探索型データ分析(Exploratory Data Analysis)とし、旧来のアプローチを確証型データ分析(confirmatory data analysis)と名付けて、2つを分類わけしようとしました。

今で言うところの「改革派」「守旧派」というレッテル貼りみたいなものかもしれません。

テューキーは大学の授業などで、探索型データ分析のための手法を幾つかレクチャーします。その1つが「箱ひげ図」でした。
  

5-number summariesとして紹介された箱ひげ図

種々の批判や疑問の声に応えるため、今までの授業の内容をまとめて、1977年にまさにそのまま「Exploratory Data Analysis」というタイトルの本を刊行します。この本の中の「Schematic Summaries (pictures and numbers).」という章の中で、箱ひげ図は"5-number summaries"という紹介と共に登場しています。

8342_001.jpg

図:「Exploratory Data Analysis」に掲載された箱ひげ図の原型

文中、彼はグラフという「古典的」な手法を使う理由として次のように説明します。

Graphs force us to note the unexpected; nothing could be important.

グラフは我々に期待しなかったことを気付かせる。それより重要なものはない。

※引用元:Exploratory Data Analysis

データの特徴を捉えるには、今までは数字でしかわからなかったのですが、テューキーはグラフという視覚化で表現する方法を選んだのです。

探索型と言っている以上は、データから何かしらの気付きを得なければなりません。そして、それに最も適しているのはグラフであるとテューキーは気付いていたのでしょう。

ちなみに、テューキーがこうして「まずデータを見ろよ!」と言った背景として、彼自身が勤めるベル研究所に、当時にとってのビッグデータを分析できるハード基盤があった点は情報として残しておくべきかもしれません。

例えば、電話回線をモニタリングした縦100万列・横100万行のデータや、宇宙探査機からの遠隔測定された数百万列・行のデータが職場にあったそうです。
  

まとめ

ともかく、統計はこうして「発見」を主眼とした分析、現場の実務に使う分析に使われていくようになります。今、世間で活躍するデータサイエンティストの道を切り開いたのはテューキーと言っても良いかもしれません。

洋書版ですが、Amazonではテューキーの書いた「Exploratory Data Analysis」が買えるようです。興味を持たれた方は、手に取ってみてはいかがでしょうか。

●箱ひげ図はこうして生まれた

・箱ひげ図は統計学を実学に活用したジョン・テューキーによって生み出された。
・テューキーは”正しい仮説”を発見するための分析手法について考えていた。その結果、探索型データ分析(Exploratory Data Analysis)という手法が誕生した。
・EDAの1つが箱ひげ図である。

参考:
Exploratory Data Analysis (英語)|ペーパーバック