2010年10月18日掲載

使える!統計講座 【深瀬勝範】 - 第5回 給与水準を調べる⑤ ~度数分布図を作ってみよう~

使える!統計講座(5)
深瀬勝範
 ふかせかつのり
Fフロンティア代表取締役・社会保険労務士

データの分布状況を調べるときには、横軸に給与、縦軸に対象者数をとった棒状のグラフ(度数分布図)を作成します。これを見ると、どの給与額に、どれくらいデータが集中しているかがわかります。

1.「度数分布図」とは

「100,000円~119,999円、120,000円~139,999円・・・」のようにデータを一定の区間ごとに区切ったものを「階級」といい、各階級に含まれるデータ数を「度数」といいます。度数分布図(ヒストグラム)とは、横軸に階級、縦軸に度数をとった棒状のグラフです。

「第3回 給与水準を調べる③」の散布図では、データを示す点の散らばり方を見て、年齢(または勤続年数など)と給与の関係性を調べました。今回説明する度数分布図は、階級ごとのデータ数を見て給与の分布の特徴をつかむときに使います。

それでは、実際に度数分布図を作ってみましょう。

①給与の階級を設定します。階級の区間が狭すぎても広すぎてもデータ分布の特徴がつかみにくくなるので、適切な幅を設定するようにします。

②各階級に含まれるデータの個数を数えます。エクセルでは「FREQUENCY関数」を使えば自動的に算出されます。

③給与階級ごとのデータ数を一覧表(「度数分布表」)にします。度数分布表を範囲指定したうえでグラフ機能から「棒状グラフ」を選択すると、「度数分布図」が表示されます[図表1]。

度数分布図の例
クリックして拡大

度数分布図を作成したら、その形を次のような観点から見て、データの分布の特徴をつかみます。

①データがどの階級に集中しているか、均等に散らばっているか
②データの山が中心付近にあるか、低い(高い)ほうに偏っているか
③データの山が1つだけか、複数あるか

[図表1]の場合、「250~299千円」の給与階級に極端にデータが集中していることから、若年層が多い会社であることが読み取れます。また、「400~449千円」の階級のデータ数も多くなっていますが、ここに管理職の給与が集中しているものと考えられます。

このようにデータ分布の特徴をつかむと、そこからさまざまなことが分かります。

2.度数分布図を作成するときの注意

厚生労働省の「賃金構造基本統計調査」には「所定内給与額階級別・労働者数」が表示されています。このデータを使って、度数分布図を作成すれば、特定の産業や職種の給与分布をみることができます。

ここでは、「2010年 賃金構造基本統計調査」の全産業のデータを使って度数分布図を作成します[図表2]。

賃金構造統計調査を使った度数分布図の作成
クリックして拡大。400.0~449.9千円から階級の区間(刻み)が異なることに注意!

賃金構造基本統計調査のデータをそのままグラフ化すると、[図表2]の①のように「200.0~219.9千円」と「400.0~449.9千円」の2つの山があるように見えます。ただし、元データの階級をよく見てみると「400.0~449.9千円」の山は、それまで20.0千円(2万円)だった階級の区間が、50.0千円(5万円)に広がっていることが分かります。このように階級の区間が異なると、データ数を単純に比較することができなくなりますので、元になるデータの区間の幅をよく確かめて分布図を作成することが重要です。

給与階級の区間を10万円にそろえて度数分布図を作成すると、[図表2]の②のようになります。「200.0~299.9千円」が多く、それ以上の給与階級はデータ数がだんだんと少なくなり、①のグラフとは印象がまったく違うものとなります。

度数分布図はグラフの形でデータの分布の特徴をつかむものですが、グラフの形は横軸の設定次第で大きく変わります。つまり、横軸の設定次第で度数分布図の良し悪しが決まるということになります。横軸は、次の点に注意して設定してください。

①階級の区間は、広すぎず狭すぎず、適切な幅を設定する
②各階級の区間を一定にする
③前後の階級の間に空白が生じないように設定する(例えば、1~3、5~7のように、間の4を飛ばさないこと)

度数分布図は、パソコンで簡単に作成できて、データの分布の特徴を一目でつかめるものです。積極的に活用してみてください。