テューキー、既存の手法を守旧派扱いする

テューキーはこうした葛藤を、1961年に「The Future of Data Analysis」という1冊の書籍にまとめます。

書籍の冒頭で、テューキーは「数理統計学はデータ解析の実践と紐付かない限りは純な数学だ」と批判しました。統計学は役立たなければならないし、データ分析という環境で役立っていないことを強く訴えたのです

この瞬間、統計学は数学の延長という立場から切り離され、データ分析の実務に紐付いたと言ってもいいでしょう。

例えば、データの中に1つ外れ値が入っているだけでも、結果は大きく変わってくるのですが、それを除去しないのが旧来の統計学であり、テューキーらは「まずデータ自体を探索して、そのデータが異常値だと見なせるなら、取り除いた方が絶対良いだろ!」と主張したのです。

まずはデータを見る。はじめに仮説ありきではなく、まずデータを多角的な視点から捉える。先入観を持ってデータを見るのではなく、様々な視点から断面を眺めることで気付きを得ようとする。
テューキーはそれを探索型データ分析(Exploratory Data Analysis)とし、旧来のアプローチを確証型データ分析(confirmatory data analysis)と名付けて、2つを分類わけしようとしました。

今で言うところの「改革派」「守旧派」というレッテル貼りみたいなものかもしれません。

テューキーは大学の授業などで、探索型データ分析のための手法を幾つかレクチャーします。その1つが「箱ひげ図」でした。
  

5-number summariesとして紹介された箱ひげ図

種々の批判や疑問の声に応えるため、今までの授業の内容をまとめて、1977年にまさにそのまま「Exploratory Data Analysis」というタイトルの本を刊行します。この本の中の「Schematic Summaries (pictures and numbers).」という章の中で、箱ひげ図は"5-number summaries"という紹介と共に登場しています。

8342_001.jpg

図:「Exploratory Data Analysis」に掲載された箱ひげ図の原型

文中、彼はグラフという「古典的」な手法を使う理由として次のように説明します。

Graphs force us to note the unexpected; nothing could be important.

グラフは我々に期待しなかったことを気付かせる。それより重要なものはない。

※引用元:Exploratory Data Analysis

データの特徴を捉えるには、今までは数字でしかわからなかったのですが、テューキーはグラフという視覚化で表現する方法を選んだのです。

探索型と言っている以上は、データから何かしらの気付きを得なければなりません。そして、それに最も適しているのはグラフであるとテューキーは気付いていたのでしょう。

ちなみに、テューキーがこうして「まずデータを見ろよ!」と言った背景として、彼自身が勤めるベル研究所に、当時にとってのビッグデータを分析できるハード基盤があった点は情報として残しておくべきかもしれません。

例えば、電話回線をモニタリングした縦100万列・横100万行のデータや、宇宙探査機からの遠隔測定された数百万列・行のデータが職場にあったそうです。