統計学の基礎シリーズ第2弾 データの散らばり具合が数値化できる?

学習塾経営者、ビジネス数学インストラクター 大沼宏和

Research

2021.12.16

前回の記事では、データの代表値として平均値、中央値、最頻値を紹介しました。データをみる上でこれらのような「中心的数値」ももちろん重要ですが、それと同じぐらい重要なのが「データの散らばり具合」です。

平均が同じでも中身は?

例えば、A中学校とB中学校からそれぞれ5人の生徒を選び、身長を測定すると表1のようになったとします。

どちらの中学校も平均値は165.0cmとなりましたが、中身をみると随分と様子が違いますね。A中学校は平均値周辺の値ばかりなので、平均をとることに意味がありそうですが、B中学校の場合は平均値とかけ離れた値ばかりで、平均をとる意味が若干薄れます。つまり、A中学校に比べて、B中学校のデータは「散らばっている」わけです。

統計学では、この「データの散らばり具合」も数値化することができます。

「散らばり具合」をどう数値化するか

データの散らばり具合を測る単純な方法として、各データと平均の差をとるものがあります(これを「偏差」といいます)。例えば、表2において、A中学校の生徒aと平均の差は166-165.0=1.0cmです。これをすべての生徒に対して行い、「1人あたりどれだけ平均と離れているか」が分かれば、データの散らばり具合がつかめそうですね。

ところが、A中学校の偏差をすべて足し合わせるとゼロになってしまいます。考えてみれば当たり前の話で、「平均」は「平らに均(なら)した」値ですから偏差の合計はプラスマイナスゼロになります。では、どうすれば偏差が相殺される状況を防げるのでしょうか。

解決策として、偏差をすべて2乗してから足し合わせる方法があります。これなら表2の黄色部分のような負の値は存在せず、ズレが着々と「積み重なり」ますね。これにより、A中学校の偏差の2乗の合計は4.0、B中学校は830.0となりました。これをデータの個数で割る、つまり「偏差の2乗の平均」をとれば、「1人あたりどれだけ平均と離れているか」がつかめそうです。これを「分散」とよびます。

A中学校の分散は0.8、B中学校の分散は166.0(表2の赤色部分)となり、「散らばっていそうな」B中学校のほうがより大きな値となりました。分散は、散らばっている方がより大きな値となるのです。

単位を合わせたのが「標準偏差」

このようにして、データの散らばり具合を数値化することに成功したわけですが、ここで一つ問題点が生じます。「単位」が合わないのです。

今回は具体例として中学生の身長を取り上げ、単位を「cm」としました。平均身長の単位ももちろん「cm」ですから、偏差、つまり各人と平均身長の差も「cm」ですね。ところが偏差の2乗は「cm×cm」すなわち「〖"cm" 〗^2」となり、これまでの単位と合いません。分散は「偏差の2乗の平均」ですから、これも単位は「〖"cm" 〗^2」です。

そこで、分散の単位を「cm」に戻すために「√(ルート)」を取るという方法があります。これを「標準偏差」といいます。

A中学校の標準偏差は√0.8≒0.89、B中学校の標準偏差は√166.0≒12.88となります。これで、単位が「cm」に戻りました。

次回は、この標準偏差がもつ「重要な意味」についてお話しします。

大沼 宏和|おおぬま ひろかず

略歴
1982年 青森県生まれ
2001年 高松高校 卒業
2005年 神戸大学工学部 卒業
2007年 神戸大学大学院自然科学研究科 修了
香川県の予備校勤務を経て
2016年 HOP 設立
写真
大沼 宏和|おおぬま ひろかず

将来展望型学習塾HOP

住所
香川県高松市太田上町1060‐11 太田第一ビル
代表電話番号
087・880・4159
地図
URL
https://www.hopforhope.info
確認日
2021.07.01

記事一覧

おすすめ記事

メールマガジン登録
メールマガジン登録
ビジネス香川Facebookページ