2019年04月12日掲載

Point of view - 第132回 入江崇介 ―人事データ活用のために、「健全な疑いの目」を持つ

人事データ活用のために、
「健全な疑いの目」を持つ

入江崇介 いりえ しゅうすけ
株式会社リクルートマネジメントソリューションズ
HR Analytics & Technology Lab 所長

2002年東京大学大学院総合文化研究科広域科学専攻にて修士課程(学術)修了後、同社入社。アセスメント、トレーニング、組織開発の商品開発・研究に携わる。現在は主に、人事データ活用のソリューション開発や、そのための測定・解析技術の研究に従事する。一般社団法人ピープルアナリティクス&HRテクノロジー協会上席研究員。著書に、『人事のためのデータサイエンス-ゼロからの統計解析入門-』(中央経済社、2018年)がある。

 近年、「HRアナリティクス」や「ピープルアナリティクス」という言葉に代表されるように、「組織・人材に関わるデータを分析し、その結果を用いて、よりよい意思決定やアクションにつなげること」への関心が高まっている。PDCAにより人事施策の効果を高めることに注目が集まったり、ダイバーシティ化やデジタル化で変質する業務・職場において、これまでの経験には頼れない中で意思決定をすることが増えていたりすることを考えると、この流れは必然と考えられる。
 しかし、今般発覚した、厚生労働省の毎月勤労統計調査において「全数調査するとしていたところを一部抽出調査で行っていた」ことに代表される一連の基幹統計問題のように、データや数字にはさまざまな落とし穴が存在する。
 そこで、データに関する肯定的な関心、否定的な関心の双方が高まっている今、あらためてデータ活用における留意点を確認したい。

※厚生労働省プレスリリース「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」(公表資料はこちら

データの代表性を確認する

 「より多くの人に社員食堂を利用してもらうために何が必要か、そのヒントを得るためにアンケートを行った。その結果、『メニューの充実』という回答が最も多かった。だから、メニューを充実させよう!」
 福利厚生担当のAさんは、アンケート結果に基づき意思決定を行った。しかし、蓋(ふた)を開けてみると、メニューを充実させたにもかかわらず、社員食堂の利用者数はほとんど増えていない…。
 なぜ、このようなことが起きてしまったのか。実は、Aさんは社員食堂に赴き、「社員食堂を利用している人だけ」にアンケートを取っていたのだ。ところが、そもそも社員食堂を利用していない人は、外出が多くほとんど社員食堂を利用できない人だったり、お弁当を持ってきている人だったりする。よって、メニューを増やしたからといって、社員食堂を利用する人が増えるわけではなかったのだ。
 これは、全従業員を対象とした「全数調査」ではなく、その一部を対象とした「標本調査」であり、かつ「標本に偏りがある」ことによりバイアスがかかったデータ(アンケート結果)に基づいて意思決定をしたために生じた誤りである。このようなことは、日常的に起こり得る。
 例えば、社内で行われる「任意」のアンケートについては、「関心のある人のみ回答している」「反対意見のある人のみ回答している」ことが起こり得る。また、みなさんは人事施策の導入状況や働き手の意識について、人事サービス提供機関が行う調査に目を向けることもあると思うが、そもそもこうした調査の対象者の属性として、「そのサービス提供者のユーザー」という偏りが潜んでいることもある。
 当たり前と思われるかもしれないが、「調査対象は誰か」「全数調査か、標本調査か」「標本抽出はどのような手続きでなされているか」については、あらためて確認を欠かさないようにしたい。もちろん、データの数の多寡は調査結果の安定性に影響を与える。よって、データ数の充実度合いについてもきちんと押さえておくようにしたい。

数値の意味を正しく理解する

 本稿をお読みになっているみなさんは、以下のような誤解はしないかもしれないが、一度「求職者」の立場で考えてほしい。年次有給休暇(以下、年休)の取得率が「80%のB社」と「60%のC社」において、取得日数はどちらのほうが多いだろうか。一見すると、「B社」と考えるのではなかろうか。しかし、実際は必ずしもそうではない。
 まず、年休取得率は、一般に以下の数式で定義される。

 よって、仮に年休を10日付与されている人が10人の会社で、全員が対象年度に8日取得していれば、年休取得率はB社のように「(80日÷100日)×100=80(%)」となる。
 一方、同様に年休を20日付与されている人が10人の会社で、全員が対象年度に12日取得していれば、取得率はC社のように、「(120日÷200日)×100=60(%)」となる。すなわち、1人当たりの取得日数はC社のほうが多いにもかかわらず、取得率はC社のほうが低くなってしまうのだ。
 また、両社の付与日数・取得日数が上記のとおりとして、年休取得率のみに着目すると、「B社より年休取得率が低いC社は、労働環境もB社に劣っている」と考えるかもしれない。しかし、実際にはB社よりC社のほうが年休の付与日数・取得日数ともに多い。また、年休の付与日数が多いということは、C社のほうが長期間在籍している社員が多いことになる。すなわち、「実は、B社よりC社のほうが労働環境がよい」という可能性すらある。
 このような誤解を防ぐために、数値の意味を正しく理解することが求められる。特に、「●●率」のようにある定義に沿って算出されている数値には注意していただきたい。

「分けて」見る

 次に、以下の表をご覧いただきたい。

 赤字部分(⑥年休取得率)のデータに着目すると、職種別の取得率はE社のほうが高いにもかかわらず、全体で見るとD社のほうが高くなっている。このように、部分で見るのと全体で見るのとで食い違った結果が出ることは「シンプソンのパラドックス」として説明される。
 「部署」「職種」「入社年次」など、組織や個人を分けるさまざまな属性。その意味や特徴を適切に捉えた上でデータを分析しなければ、私たちはデータから誤った推論を行い、それに基づいて誤った意思決定をしてしまう可能性がある。
 もちろん、属性別に分析を行うこと、その結果を確認することには手間が掛かるため、すべての分析をカバーすることは難しい。しかし、必要最低限の切り口については、「『分けて』見る」ことを大切にしたい。

意外な結果に注意する

 続いて、ちょっとした思考実験にお付き合いいただきたい。「血圧の高さと年収の高さが比例する」というデータ分析の結果が得られたとしたら、「血圧と年収には関係がある」と思われるだろうか。「関係がある」と考える方もおられるのではなかろうか。
 実際のデータで分析したわけではないが、筆者は両者には「関係がない」とみる。では、(両者の直接的な相関性はさておき)このような結果が得られるカラクリは一体どのようなものだろうか。それは、「年齢が高くなると、血圧が高くなる傾向にある。また、一般の賃金統計を見ると、年齢が上がるほど年収が高くなる傾向にある」からである。
 すなわち、「年齢が高くなる」という要因によって、両者の間に見掛け上の相関関係が現れ得るのだ。統計学で「疑似相関」と言われる現象である。
 実際にデータを分析する中で、みなさんも「意外な結果」に出会ったことはないだろうか。その結果は、「思わぬ、有効な発見」かもしれない。しかし、上記のように「誤解を招く結果」を導くこともある。因果関係をはじめとする「関係性」については、細心の注意を払って分析し、解釈していただきたい。

健全な疑いの目を持つ

 本稿で紹介したとおり、意図の有無にかかわらず、私たちは常にデータを誤用してしまうリスクにさらされている。だからといって、筆者自身決して「データ活用をしないほうがよい」と思っているわけではない。むしろ、幅広い分野で積極的なデータ活用が進むことを願っている。
 それゆえ、データの落とし穴に陥らないように、ぜひ本稿で紹介したヒントや留意点を参考に、「健全な疑いの目」を持っていただきたい。
 また、筆者のように社会に調査結果を公表する立場としては、「正しい手続きに則(のっと)ること」「その手続きを公表すること」、そして「『シンプソンのパラドックス』や『疑似相関』に惑わされないように適切な切り口を設けて分析を行うこと」を、あらためて大切にしたいと思う。