異常に高い値が含まれていた場合の書き方

先ほどの9人組のグループのデータは1人だけ年収2,000万と突出した値が含まれていました。こうした他と比べて大きく外れた値を「異常値」または「外れ値」と言います。

箱ひげ図では、「異常値」をどのように表示するのが適切なのでしょうか。「第3四分位」である450万から2,000万まで長い「ひげ」を書くべきでしょうか。

8234_005.jpg

私たちは、この箱ひげ図が表すデータの内訳を知っていますが、初見の人はデータの第3四分位から最大値までどんなデータが含まれているのか考えてしまうでしょう。箱ひげ図のマナーとして、こうした「異常値」はとしてひげに含めません。点をうって、その1つ前の値まで線を引きます。9人組のデータであれば、2,000万の前の475万まで線を引きます。

8234_006.jpg

"異常値"と見なす基準は、四分位範囲の値の1.5倍を第1四分位と第3四分位から数えて上回るか否かと決まっています。

今回のデータの場合、四分位範囲は100万です。したがって「150万」が基準です。第1四分位である年収350万から150万を引いた200万を下回る値は外れ値ですし、第3四分位である年収450万から150万を足した600万を上回る値は外れ値です。よって年収2,000万は外れ値とみなされます。外れ値を考慮した上で箱ひげ図を読むと、よりデータの散らばりを理解できます。

以下の図は、イタリアと日本の首相たちの在任期間を箱ひげ図で表しています。

8234_007.jpg
  

箱ひげ図からは様々な推測が立てられる

イタリアの外れ値はベルルスコーニで在任期間は3,339日。日本の外れ値はそれぞれ佐藤栄作2,798日、吉田茂2,616日、小泉純一郎1,980日、中曽根康弘1,806日です。

日本で言えば、この4人は「外れ値」と見なせるほど長期政権を築いた稀有な存在であると言えます。イタリアの四分位範囲は日本より長い分、ひげも日本より長いですね。ただし中央値で見ると、日本よりイタリアのほうが短いことがわかります。すなわち長く続かなかった政権と、長期に築いた政権の2パターンに別れることがわかります。

散布図は、見れば見るほど「この結果はどういうことだろう?」「この違いは何が理由だろう?」と考えさせられます。

中央値や四分位範囲など、かなり初歩的な統計データしか使っていません。したがって1度勉強すれば誰もが簡単に理解し使いこなせるグラフだと言えます。