La science des données ne peut pas (encore) résoudre le problème du recrutement

Les responsables du recrutement ont désespérément besoin de nouveaux outils, car les outils existants – entretiens non structurés, tests de personnalité, références personnelles – ne sont pas très efficaces. La dernière évolution en matière d’embauche, à la fois prometteuse et inquiétante, est la montée en puissance des algorithmes basés sur la science des données pour trouver et évaluer les candidats à un poste. À mon avis, plus de 100 fournisseurs créent et vendent ces outils aux entreprises. Malheureusement, la science des données – qui en est encore à ses balbutiements en matière de recrutement et d’embauche – n’est pas encore la panacée que les employeurs espèrent.

Les vendeurs de ces nouveaux outils promettent qu’ils contribueront à réduire le rôle des préjugés sociaux dans l’embauche. Et les algorithmes peuvent en effet aider à identifier de bons candidats à un poste qui auraient auparavant été exclus faute d’une certaine éducation ou d’un pedigree social. Mais ces outils peuvent également identifier et promouvoir l’utilisation de variables prédictives qui sont (ou devraient être) troublantes.

Parce que la plupart des data scientists semblent en savoir si peu sur le contexte de l’emploi, leurs outils sont souvent pires que rien. Par exemple, un pourcentage étonnant construit leurs modèles en examinant simplement les attributs des «meilleurs interprètes» sur les lieux de travail et en identifiant ensuite les candidats à l’emploi qui ont les mêmes attributs. Ils utilisent tout ce qui est facile à mesurer: expressions faciales, choix de mots, commentaires sur les réseaux sociaux, etc. Mais le fait de ne pas vérifier les différences réelles entre les employés les plus performants et les moins performants sur ces attributs limite leur utilité. En outre, la collecte de données sur les réseaux sociaux ou les sites Web visités soulève également d’importantes questions sur la confidentialité. Certes, les informations sont légalement accessibles; mais les personnes qui ont créé les publications n’avaient pas l’intention ou ne les autorisaient pas à être utilisées à de telles fins. De plus, est-il juste que quelque chose que vous avez publié en tant que premier cycle puisse finir par conduire votre algorithme de recrutement une génération plus tard?

Un autre problème avec les approches d’apprentissage automatique est que peu d’employeurs collectent les gros volumes de données (nombre d’embauches, évaluations des performances, etc.) dont les algorithmes ont besoin pour faire des prédictions précises. Bien que les fournisseurs puissent théoriquement surmonter cet obstacle en agrégeant les données de nombreux employeurs, ils ne savent pas vraiment si les contextes individuels de l’entreprise sont si distincts que les prédictions basées sur les données de la plupart sont inexactes pour celle-ci.

Encore un autre problème est que toutes les approches analytiques de sélection des candidats sont rétrospectives, en ce sens qu’elles sont basées sur des résultats qui se sont déjà produits. (Les algorithmes sont particulièrement dépendants des expériences passées, en partie parce que leur construction nécessite beaucoup d’observations – des données sur le rendement de plusieurs années, même pour un grand employeur.) Comme Amazon l’a appris, le passé peut être très différent de l’avenir que vous recherchez . Il a découvert que l’algorithme de recrutement sur lequel il travaillait depuis 2014 donnait des scores plus faibles aux femmes – même aux attributs associés aux femmes, comme la participation à des programmes d’études féminines – car historiquement, les hommes les plus performants de l’entreprise étaient de manière disproportionnée. L’algorithme a donc recherché des personnes comme eux. Incapable de résoudre ce problème, l’entreprise a cessé d’utiliser l’algorithme en 2017. Néanmoins,

Le défi sous-jacent pour les scientifiques des données est que l’embauche n’est tout simplement pas comme essayer de prédire, par exemple, quand un roulement à billes échouera – une question pour laquelle toute mesure prédictive pourrait faire l’affaire. L’embauche est si conséquente qu’elle est régie non seulement par des cadres juridiques, mais par des notions fondamentales d’équité. Le fait qu’un certain critère soit associé à une bonne performance au travail est nécessaire mais pas suffisant pour l’utiliser dans l’embauche.

Prenons une variable que les scientifiques des données ont trouvée comme ayant une valeur prédictive: la distance de trajet jusqu’au travail. Selon les données, les personnes ayant des trajets plus longs souffrent de taux d’attrition plus élevés. Cependant, la distance de déplacement est régie par l’endroit où vous vivez – qui est régi par les prix du logement, se rapporte au revenu et aussi à la race. Le choix des personnes à embaucher en fonction de leur lieu de résidence a très probablement un impact négatif sur les groupes protégés tels que les minorités raciales.

À moins qu’aucun autre critère ne prédit au moins aussi bien que celui utilisé – et qui est extrêmement difficile à déterminer dans les algorithmes d’apprentissage automatique – les entreprises enfreignent la loi si elles utilisent des critères d’embauche qui ont des impacts négatifs. Même alors, pour rester du bon côté de la loi, ils doivent montrer pourquoi le critère crée de bonnes performances. Cela pourrait être possible dans le cas du temps de trajet, mais – du moins pour le moment – ce n’est pas pour les expressions faciales, les publications sur les réseaux sociaux ou d’autres mesures dont les entreprises ne peuvent pas démontrer l’importance.