Steeds vaker worden algoritmes ingezet bij de (pre)selectie van kandidaten, soms ondersteund door testen en assessments. Ik vind dat een positieve ontwikkeling, aangezien de menselijke selectie nogal veel onbewuste vooroordelen kent. Het grote gevaar is nu echter dat deze vooroordelen ook in de algoritmes terechtkomen. Daarom is het onacceptabel om een black box in je gebruikte algoritme te accepteren. En gezien de grote verschillen in kwaliteit is het ook essentieel een tool eerst zelf te testen op betrouwbaarheid.
Onbewuste vooroordelen
De meeste mensen discrimineren niet bewust. Toch blijkt dat een islamitische naam met hetzelfde cv drie keer minder kans heeft op een baan dan een Nederlandse naam, zelfs als die laatste ook een strafblad heeft. En vrouwen krijgen gemiddeld betere ratings op Github voor hun geschreven code, mits hun screennaam niet verraadt dat ze vrouw zijn. Nog een voorbeeld: vrouwen die met gemiddeld een 9 of 10 afstuderen krijgen minder vaak een startersbaan aangeboden dan vrouwen met een 8 gemiddeld, terwijl bij mannen de kans op een baan wel (licht) stijgt naarmate het gemiddelde cijfer stijgt.
Als we algoritmes gaan trainen, kunnen we ervan uitgaan dat ook de dataset niet vrij van menselijke vooroordelen is.
Als we algoritmes gaan trainen, kunnen we ervan uitgaan dat ook onze dataset niet betrouwbaar en vrij van menselijke vooroordelen is. Daarmee moeten we rekening houden als we het algoritme installeren. Maar hoe doen we dat? In 5 stappen.
Stap 1: Test de kwaliteit
Voor mij is stap 1 altijd het testen van de kwaliteit van de tool zelf. Nog voor we het hebben over het ‘kalibreren’ van het algoritme. Dat wil dus zeggen dat het mogelijk moet zijn als sollicitant de tool te testen en daar een objectief – dus: niet op een functie of de persoon gericht – rapport uit te krijgen. Dit zou je met een groep mensen moeten doen en vervolgens zou je zowel je eigen als andere rapporten moeten beoordelen. Op basis hiervan kun je de kwaliteit van een tool vastleggen, zowel in absolute als in relatieve vorm.
Vooral de relatieve kwaliteit van een tool is vaak goed te beoordelen.
Vooral de relatieve kwaliteit is vaak goed te beoordelen omdat op een afdeling echt wel bekend is hoe bijvoorbeeld de verhoudingen in extraversie zijn of wie het meest consciëntieus is. Een tool die je niet als losse sollicitant kunt testen met een gestandaardiseerd rapport zou ik op voorhand niet vertrouwen.
Stap 2: Test de doelgroep
Een tweede stap die ik graag in een systeem zie is het testen van de doelgroep. Het nadeel hiervan is dat je veel mensen nodig hebt die exact dezelfde functie vervullen. Dat is vaak een probleem, want bij de meeste bedrijven zijn er geen tientallen mensen met exact dezelfde functie. Wel ‘ongeveer’ dezelfde functie, maar juist dat ongeveer is dan een probleem. Als er te weinig mensen zijn in een bepaalde functie, sla je deze stap over en ga je meteen naar stap 3.
Bij de meeste bedrijven zijn er geen tientallen mensen met exact dezelfde functie.
Heb je wel genoeg mensen, dat laat je dus de hele doelgroep de test doen en een algoritme bepalen welke overeenkomstige eigenschappen de toppers in de functie hebben, of gewoon: iedereen die goed genoeg is voor de functie. Die kunnen ook combinaties van eigenschappen zijn. Of ranges waar mensen tussen zitten. Maar dit mag natuurlijk nooit je uitkomst zijn voor het algoritme dat je gaat gebruiken. Nee, dit is input voor stap 3!
Stap 3: Gebruik je eigen expertise over de functie
Op basis van de data die je hebt verkregen in stap 2 ga je in stap 3 je expertise gebruiken. Samen met de vakinhoudelijke experts ga je kijken of de in de vorige stap gevonden eigenschappen inderdaad betrekking zouden kunnen hebben op de prestaties in de betreffende functie. Het kan immers ook zo zijn dat iedereen in de groep een eigenschap heeft, juist omdat daarop in het verleden (onbewust) geselecteerd is, maar dat die eigenschap in zijn geheel niet relevant is voor de functie.
Het kan dat de hele groep een eigenschap heeft, juist omdat daarop in het verleden (onbewust) geselecteerd is.
Een persoonlijke anekdote: ik heb ooit als sollicitant in een gesprek gezeten waar de recruiter zich erover verbaasde dat alle kandidaten zoveel vrijwilligerswerk deden. Want daar had ze totaal niet op geselecteerd, dacht ze. Maar onbewust dus duidelijk wel. De kans dat al deze marketeers hoog scoren op de eigenschap ‘altruïsme’ is dan best groot, maar aangezien dat totaal niet relevant was voor de functie (of in dit geval: voor het bedrijf) moet dit facet weggelaten worden.
Als je in stap 2 niet voldoende mensen had, kun je in deze stap ook ervoor kiezen om een theoretisch profiel te bouwen. Op basis van de expertises kun je dan bedenken welke eigenschappen logisch zijn voor een functie. Dat is minder betrouwbaar, maar zeker bij voldoende mensen met inhoudelijk kennis van een functie aangevuld met assessmentpsychologen is het wel een acceptabele optie.
Accepteer dus nooit dat je algoritme bepaalt wat de belangrijkste datapunten voor een functie zijn.
Accepteer dus nooit dat je algoritme bepaalt wat de belangrijkste datapunten voor een functie zijn. Stap 3 is essentieel, anders loop je een groot risico om je onbewuste vooroordelen in het algoritme vast te leggen. (Ook heb je dan een probleem met de AVG, maar daarover later meer.)
Stap 4: Valideer je uitkomsten
Als je eenmaal hebt bepaalt wat het algoritme voor data gaat gebruiken, wordt het tijd om dat te valideren. In deze stap ga je dus naar de mensen die je nog niet getest hebt in stap 2. Of je gaat naar iedereen in de functie. Hen leg je vervolgens de tool voor, en je kijkt vervolgens hoe de adviezen zijn die daaruit volgen. Aangezien je van je huidige medewerkers best weet hoe goed ze zijn, kun je op deze manier bepalen of de adviezen van de tool lijken te kloppen of in elk geval accuraat genoeg zijn.
Hoe vaak zat het algoritme ernaast? Waar lag dat aan? Wat moeten we aanpassen?
Het is vaak ook goed om deze adviezen uit het algoritme enige tijd mee te laten lopen naast de normale selectieprocedure. Hoe dan ook moet je elke zes maanden tot een jaar de uitkomsten evalueren. Hoe vaak zat het algoritme ernaast? Waar lag dat aan? Wat moeten we aanpassen?
Conclusie: vermijd de black box
De conclusie? Zorg dat je algoritme en je assessments nooit een black box zijn. Ik ben geen jurist, maar ik heb begrepen dat de AVG een kandidaat zelfs het récht geeft om te vragen op basis waarvan hij of zij is afgewezen. Het argument ‘omdat ons algoritme dat zegt’ is daarbij geen acceptabele uitleg. Je bent als organisatie dus verplicht om een afwijzing inhoudelijk te kunnen onderbouwen, en een black box-algoritme kan dit niet.
Met een onderbouwd algoritme in de hand kun je dat wel, en zelfs nog veel beter dan met een cv. Bijvoorbeeld: ‘Je scoorde te laag op ‘inhibitie‘ voor een functie als beveiliger’. Of: ‘Je ‘oor-hand-coordinatie’ was te laag voor een callcenterfunctie’. Of: ‘Je bent niet extravert genoeg voor een winkelverkoper.’
Accepteer twee dingen nooit
Wat er ook gebeurt, accepteer twee opmerkingen nóóit van de leverancier van je algoritme:
- ‘Wij kunnen je niet laten testen, want we hebben alleen rapporten voor specifieke functies bij specifieke bedrijven.’
- ‘Laat een groep van je mensen de test doen en ons algoritme bepaalt welke kenmerken van belang zijn. Hoe dit eruitziet krijg je inhoudelijk niet te zien en daar mag je ook niet aan sleutelen.’
Over de auteur van dit blog
Bas van de Haterd is onder meer initiatiefnemer van Digitaal-Werven, een jaarlijks onderzoek naar welke organisatie kandidaten de beste sollicitatie-ervaring biedt, en samen met Werf& organisator van TA Live. Hij verdiept zich in alle moderne vormen van het assessen van kandidaten en schreef daar onder meer al dit overzichtsartikel en een whitepaper over.