なぜデータの真ん中を表すのに「平均」は使わないのか

データの真ん中を表すなら「平均」でも良いのではないか、と皆さんは思われるかもしれません。それは全く違います。

以下のあるグループのデータを見てください。9人それぞれの年収を記載しています。この9人の「真ん中」は年収何万でしょうか。

8234_002.jpg

平均を求めると合計5,100万÷9人で約567万になります。一方、中央値を求めると5人目の年収ですから400万になります。

どちらの計算式も間違っていません。データの真ん中を表現するのに適した表現方法はどちらか?という話です。

データの中にほかと比べて極めて大きいデータが含まれていた場合、そのデータまで考慮して「真ん中」を求めてしまうのが平均です。一方で、データ全体を考慮せずに並び順で見て「真ん中」を見るのが中央値です。実際、平均約567万という値は、年収2,000万以外の8人の年収を上回っています。

ただ、中央値もデータを意図的に造ることがあります。それはデータの個数が偶数だった場合です。真ん中を求める場合、個数が奇数であればその値を使えますが、偶数であれば真ん中が2つのデータになります。

先ほどのグループから年収2,000万が脱退すると、以下のような8人で構成されます。
この8人の「真ん中」は年収何万でしょうか。

8234_003.jpg

この場合、4人目と5人目の2人分の平均が「真ん中」になります。約388万が中央値ということになります。
隣り合う2つのデータの平均であれば、先ほどのような大きなズレは生じないだろうという発想です。
  

こんなにも伝わりやすい!箱ひげ図の見せ方

箱ひげ図は、複数並べて比較できるというメリットがあります。

以下のグラフは2006~2015年の10年間のプロ野球パ・リーグの順位毎の勝率を箱ひげ図で表しています。図からは、どんなにダメなチームでも勝率が4割ほどあるし、どんなに強いチームでも勝率は7割を下回ることがわかります。

8234_004.jpg

次に、各順位の「箱」が、隣り合う順位の箱と若干重なり合っていることもわかります。

例えば、1位と2位を見てみると、2位の第3四分位は、1位の第1四分位を上回っています。つまり、10年という括りで見たら1位より2位のチームが強いという可能性もあるわけです。野球とは、絶対的な強さではなく、あくまで他球団と比べた相対的な強さを競い合うゲームであることがわかります。

また、2位や3位に比べて1位の四分位範囲が広いことがわかります。これは他チームを押しのけてブッチギリの優勝を決めた年と、2位とデッドヒートを繰り広げながら何とか優勝を決めた年の2種類があるということです。

最近のプロ野球はポストシーズン制度が導入され、何とか3位までに滑り込めれば日本シリーズに出場できる可能性が与えられます。つまり、4位を上回る成績を収めれば良いわけです。4位の最大値は勝率0.524ですから、ここ10年という縛りはあるものの、その勝率を越えればまず出場は間違いないと考えて良いでしょう。

箱ひげ図を見るだけで、こんなことが瞬時にわかるのです。