使える!統計講座(8)
深瀬勝範 ふかせかつのり
Fフロンティア代表取締役・社会保険労務士
データの分布の特徴を分析するときには統計的手法を使います。今回から基本的な統計的手法を紹介します。第1回は平均値や標準偏差等について説明します。
1.基本統計量と代表値
データの分布の特徴を数値で表現したものを「基本統計量」といいます。基本統計量は次の2種類に分けられます。
(1)データの代表的な値(「代表値」)を示すもの
(2)データの散らばり度合いを示すもの
(1)の代表値について、主なものは次の3つです。
これらのうち最もよく使われるものは平均値です。官公庁が公表する統計データの代表値も、ほとんどが平均値を表示しています。
平均値の場合、集計するデータの中に極端に大きい(小さい)数値が含まれていると、その影響を受けて平均値がデータ全体の特徴を適切に表せなくなることがあります。こういうときには、代表値として中央値を使います。また、データが特定の階級に集中しているときや分布が極端に偏っているときは、最頻値を使ったほうがよいこともあります[図表1]。
2.データの散らばり度合いを示す統計量
散らばり度合いを調べるときには、まずデータの最大値と最小値を見ます。最大値と最小値との差を「範囲」といい、これが大きいほどデータが散らばっていることになります。
最大値、最小値の付近にはイレギュラーに近いデータが含まれていることもあるので、それらを除いたほうがデータの分布を適切にみられることがあります。こういうときには、第3四分位数と第1四分位数との差である「四分位範囲」を使います。四分位範囲は全体の50%が含まれるデータの区間の大きさを示しています(分位数については「第4回 給与水準を調べる④」を参照してください)。
範囲や四分位範囲は、データの大きさの順位に着目するものですが、これ以外にも各データと平均との差から散らばり度合いを算出する方法もあります。この方法により算出されるものが「偏差」「分散」「標準偏差」です。
難しそうですが、考え方はいたって簡単です。データの散らばり度合いを見るときには各データの偏差の状況を見ればよいのですが、その全体的な傾向をつかむために全データの偏差を合計してもプラスマイナスが相殺されてゼロになってしまいます。そこで、各データの偏差を二乗して、すべてをプラスにしたうえで平均値を求めます。これが分散です。分散では偏差が二乗されているので、その平方根をとって、元の単位に戻します。これが標準偏差です。
標準偏差はゼロ以上の数値となり、上限はありません。標準偏差が小さいほどデータの散らばりが小さい(平均値付近にデータが固まっている)ことになり、ゼロの場合は全データが同じ値であることを示します[図表2]
3.標準偏差の性質
データが正規分布(平均値を中心に左右対称の釣り鐘型の分布)になっている場合、「平均値±標準偏差」の区間にデータが入る確率は68%、「平均値±2×標準偏差」の区間にデータが入る確率は95%になるという性質があります[図表3]。
この性質を利用したものが、入試で使われる「偏差値」です。偏差値は「50+10×(自分の得点-平均点)÷標準偏差」で算出します。偏差値が50ならば平均点と一致、70ならば上位2.5%に入るトップクラスということになります。
偏差値のように、平均値と標準偏差を使うことによって、あるデータが全体の中でどのあたりに位置しているのか、大まかにつかむことができます。
4.基本統計量の使い方
一般的なデータ分析では、代表値として「平均値」が、散らばり度合いを示す指標として「標準偏差」がよく使われますが、給与データの分析では、「平均値」と「範囲(四分位範囲)」が、よく使われます。厚生労働省「賃金構造基本統計調査」では、給与の平均値や四分位数が示されているので、自分の給与が世間水準を上回っているのか、標準的なのか(四分位範囲の中に入っているのか)等を確認できます。