統計学の基礎シリーズ第1弾 データを代表するのは平均値?中央値?それとも?

学習塾経営者、ビジネス数学インストラクター 大沼宏和

Research

2021.11.18

(図1)分布による平均値・中央値・最頻値の位置関係

(図1)分布による平均値・中央値・最頻値の位置関係

今回より3回にわたり「統計学の基礎シリーズ」と題して、オトナなら絶対に知っておきたい統計学の基礎知識をお伝えします。

「平均」=「真ん中」ではない

国税庁が毎年発表する「民間給与実態統計調査」※1によると、令和元年(2019)の平均給与(賞与もすべて含めたもの)は、男性約540万円、女性約296万円でした。しかし、東京などの都会ならまだしも、香川県などの地方において「平均的」な男性の年収が本当に540万円もあるのでしょうか。

実は、みなさんが思っている「真ん中」や「平均的」と、統計学上の「平均値」では意味が異なっている場合があります。平均値とは、変量の総和をデータ数で割ったものであり、これは「すべての値を平らに均(なら)したもの」を表します。一方、みなさんが思う「真ん中」や「平均的」というのは、統計学上の「中央値」のことを指します。これはまさに、「上から(または下から)数えてちょうど50%のところにある値」のことです。

実際このデータの「中央値」は、男性460~470万円、女性250~260万円と推測され※2、我々の肌感覚としてはこちらのほうがしっくりくるように思います。

※1 https://www.nta.go.jp/publication/statistics/kokuzeicho/minkan2019/pdf/001.pdf
※2 ※1の第16表を参照し、推測したもの。

「平均値」より「中央値」が良い場合

あるデータ群の特徴を1つの数値で表したものを「代表値」と呼ぶのですが、我々はなんでも「平均値」を代表値としてしまいがちです。しかし、先ほどの例のように「中央値」を代表値とするほうが現実的な場合も多々あります。

簡単な例で考えてみましょう。10人の子どもが数学のあるテストを受け、その結果は表1のようになりました。10人の点数の平均をとると40点となりますが、これは上から数えると第2位の記録となり、「真ん中」を表しているようには思えません。ちなみに中央値はこの場合、第5位36点と第6位34点の平均である35点です。

この例から分かるのは、平均値は「外れ値」(極端に集団から離れた値)に弱いということです。しかしそれも、母集団がもっと大きければ影響も薄まるのですが、今回のように10人しかいない状況では外れ値の影響が顕著です。

もちろん、母集団が小さい状況では中央値も参考程度に捉えるべきですが、母集団が小さいわりに外れ値がある状況なら、少なくとも平均値より中央値のほうが代表値としては向いているでしょう。

「最頻値」をみる場合も

データの中で、最も登場頻度が高い値を「最頻値」と呼びます。データ数が少ない場合、同じ点数が出ることは少ないですが、表1の結果を表2のように度数分布表にしたとき、最も度数が多い部分の階級値(階級の真ん中の値)を最頻値とすることもあり、この場合最頻値は35点です。どのエリアに一番多く分布しているかを調べるとき、最頻値は非常に便利です。

図1は、データの分布をグラフ化したものです。図1左のように、山が一つだけで左右対称になっている場合、平均値、中央値、最頻値は一致します。一方、図1右のように、山が一つではあるものの左右対称でない場合、最頻値、中央値、平均値が一致しないことが多くなります。

データは、代表値を1つとするほうが分かりやすいのですが、それだけで全体像が見えるわけではありません。できれば複数の代表値を拾い、全体的にどんな分布になっているか想像することが重要です。

大沼 宏和|おおぬま ひろかず

略歴
1982年 青森県生まれ
2001年 高松高校 卒業
2005年 神戸大学工学部 卒業
2007年 神戸大学大学院自然科学研究科 修了
香川県の予備校勤務を経て
2016年 HOP 設立
写真
大沼 宏和|おおぬま ひろかず

将来展望型学習塾HOP

住所
香川県高松市太田上町1060‐11 太田第一ビル
代表電話番号
087・880・4159
地図
URL
https://www.hopforhope.info
確認日
2021.07.01

記事一覧

おすすめ記事

メールマガジン登録
メールマガジン登録
ビジネス香川Facebookページ