TEST - Wer trifft die besseren Personalentscheidungen?

| |
Stephan Grabmeier
Stephan Grabmeier, Foto: Marko Kubitz FOTOGRAFIE

People Analytics bei Personalentscheidungen

„Moneyball Recruiting“ – so nennt man in den USA die Personalauswahl auf Basis von People Analytics. Zurück geht der Begriff auf das Buch „Moneyball“ von Michael Lewis, in dem die Geschichte der Oakland Athletics erzählt wird: Ein zweitklassiges Baseballteam aus Kalifornien, das zu wenig Geld hatte, um Topspieler einzukaufen, und gleichzeitig zu wenig guten Nachwuchs hatte. Deshalb setzte das Management auf eine neue Recruiting-Taktik. Statt auf das Bauchgefühl von Talent-Scouts und Trainern zu hören, setzte man auf Zahlen und wertete die Statistiken aller Baseballspiele in den USA aus, um erfolgreiche Sportler zu identifizieren. Darunter waren oft relativ unbekannte und ältere Spieler. Aus diesen wurde dann eine neue Mannschaft geformt – und die wurde nicht nur Westküstenmeister, sondern legte eine Siegesserie von 20 Spielen hintereinander hin. Die Moral von der Geschichte: Maschinen treffen bessere Recruiting-Entscheidungen, weil sie objektiv auf Basis großer Datenmengen analysieren.

Nun sind datenbasierte Matching- und Selektionstechnologien in der Personal(vor)auswahl schon seit über zehn Jahren im Einsatz, weil hier viele einfach strukturierte Daten vorliegen: Wo haben die besten Mitarbeiter studiert und gearbeitet? Welche Qualifikationen aus dem Anforderungsprofil werden erfüllt? Wie schnell wurden vorherige Jobs gewechselt? Mittlerweile sind Algorithmen nicht nur im Recruiting, sondern auch bei anderen Personalentscheidungen wie zum Beispiel Beförderungen oder Trainingserfolg im Einsatz. Im letzten personalquarterly fassten Thorsten Biemann und Heiko Weckmüller eine Reihe von Studien zusammen, die untersuchen, ob Algorithmen-basierte Personalentscheidungen besser sind als das menschliche Expertenurteil. Sie stellen dazu fest, „dass der Algorithmus dem Expertenurteil zumeist überlegen ist“.

Solche Algorithmen hat die Softwarebranche in People-Analytics-Produkte gegossen, beispielsweise SuccessFactors (SAP), Taleo (Oracle) oder Workday. Bei SAP laufen diese Produkte mittlerweile unter dem Label „Business beyond bias“: Mit Hilfe von SAP SuccessFactors sollen Vorurteile – bewusste und unbewusste – bei Personalentscheidungen ausgeblendet werden können, so dass „Aspekte, die nicht relevant für den Job sind, nicht in die Entscheidung einfließen“, sagt SAP-Personalvorstand Stefan Ries. Vorstandschef Bill McDermott ergänzte in einem Handelsblatt-Interview im November 2016: „Maschinen haben keine Vorurteile, sie haben nur einen Algorithmus, der zum Job den passenden Bewerber sucht“. Statt nur abzugleichen, wo wer studiert und gearbeitet hat, durchforstet die Software Lebensläufe und freigegebene Profile in sozialen Netzwerken. Die Auswahl erfolgt durch die Mustererkennung von Daten oder Textanalysen, also auch unstrukturiert vorliegenden Daten. Interessanterweise spielt Joachim Förderer, der das Produktmanagement Recruiting bei SuccessFactors leitet, die Fähigkeiten seines Produkts herunter. Auf die Frage, ob eine Software besser als ein erfahrener Personaler sei, entgegnet Förderer: „Die Antwort lautet natürlich ‚Nein‘ .

Mensch oder Maschine? Während die Wissenschaft also in Richtung Maschine tendiert, dominiert in der Praxis der Mensch. Um zu verstehen, warum das so ist und wie lange das noch so bleiben wird, muss man wissen, welche Probleme mit People Analytics entstehen – und inwiefern diese lösbar sind. Ich sehe im Kern fünf Probleme bei der Anwendung von People Analytics – und nur zwei davon sind technisch lösbar.

1. Die Datenbasis ist zu klein oder nicht verwendbar – lösbar

Im Vergleich zu wirklich großen Datenmengen, wie sie beispielsweise bei Google-Suchen oder Amazon-Bestellungen auftreten, werden viel weniger Personalentscheidungen getroffen. Doch gerade im Bereich des Personalmanagements gibt es zig Studien, die immer wieder ähnliche Fragestellungen untersucht haben und auf die man sich beziehen kann. Beispielsweise können Eignungsdiagnostik-Experten wie das iqp hier helfen, weil sie wissen, welche Instrumente wirken und wie gut sie erforscht sind. Kein Entscheider muss deshalb bei Null anfangen, sondern kann sich auf Ergebnisse aus anderen Organisationen stützen, auch wenn deren Rohdaten nicht vorliegen. Dass bei der Auswahl des Datensatzes oder der Studien ein kritischer Blick auf die Zahl von Beobachtungen, Messpunkten oder Stichproben geworfen werden muss, versteht sich von selbst. Dass das mühsam ist, ist auch klar – aber dafür gibt es Berater und Wissenschaftler, welche nicht selten auch beraten.

Allerdings ist die breite Datenbasis nur eine Facette des Problems. Auch wenn genügend Fälle auftreten, liegen die Daten meist in verschiedenen (HR-)Systemen und Datenformaten vor. Für die Algorithmen-basierte Auswertung müssen sie bereinigt werden. Selbst das People Analytics-Team bei Google hat für die Datenbereinigung ein Jahr gebraucht. Dass dies mittlerweile schneller geht, versprechen neue Dienstleister. Beispielsweise offeriert One Model die Integration und „Säuberung“ aller HR-Daten. Das Angebot lautet, dass Personaldaten aus ERP-Systemen von SAP, Oracle, Peoplesoft oder Infor innerhalb von acht Stunden bereinigt werden können. Selbst chaotische Mixturen aus Excel-Tabellen und Word-Dokumenten sollen sich in dieser Zeit sammeln, bereinigen und bereitstellen lassen. Sofern die Daten schon in SuccessFactors, Taleo, Workday oder anderen HR-Systemen vorliegen, ist das Problem noch schneller lösbar.

2. Die Kompetenzen für People Analytics sind in der Personalabteilung nicht vorhanden – lösbar

HR-Mitarbeiter haben wenig Ahnung von Statistik und befürchten, von der IT-Abteilung übernommen zu werden. Behebbar, schon allein, weil viele der am Markt vorhandenen Software-Lösungen Auswertungsmöglichkeiten und Dashboards mitbringen. Der Bedarf an IT-, Statistik- und auch HR-Kompetenz ist dennoch groß, um die möglichen Verzerrungen – siehe das vierte Problem unten – erkennen zu können.

Befunde über Ursache-Wirkungs-Muster im Managementbereich sind mehrdeutig und können variieren. Völlig situativ und beliebig sind sie allerdings auch wieder nicht. Deshalb bieten People Analytics-Produkte vorgefertigte Auswertungsfunktionalitäten und Best Practices an. Die Lösung kann dennoch nicht von Programmierern ohne Kenntnis der Unternehmensspezifika kommen. Aber auch nicht alleine von Personalern. Denn dazu verstehen die meisten zu wenig von Algorithmen und Programmierung – und leider oft auch zu wenig von betriebswirtschaftlichen Wertschöpfungs- und Wirkungsketten. Berater können hier eine Zeit lang als Übersetzer helfen. Aber besser morgen als übermorgen sollten Personaler auf diesen Gebieten eigene Kompetenzen erwerben. Das ist machbar (siehe zum Beispiel den MBA HR an der Quadriga Hochschule) – auch wenn es eher ein bis zwei Jahre als ein bis zwei Monate dauern wird.

3. People Analytics vernachlässigt die sozialpsychologische Komplexität von Personalentscheidungen – keine technische Lösung in Sicht

Bei People Analytics steht nur der Einzelne unter dem Brennglas der Analyse von Daten einer anonymen Vergleichsmasse. Aber „das Personal“ besteht nicht nur aus einzelnen Mitarbeitern, sondern seinen wettbewerbsstiftenden Mehrwert erhält der Personalkörper vor allem durch das Zusammenspiel vieler Einzelner (vgl. Gerhart 2005; Nyberg & Wright 2015). „Das Personal“ besteht aus Menschen – und die bringen Höchstleistung nur dann, wenn sie zusammenpassen. Vorhersagen auf Basis von Big Data-Analysen müssten also nicht nur prüfen, ob die Qualifikationen „matchen“ oder der Einzelne Leistung bringt, sondern auch, ob „die Chemie stimmt“.

Zusätzlich zur Entscheidungsgrundlage (der Leistung der Person/des Personals) ist auch die Entscheidungssituation selbst eine sozial komplexe. Allein die Tatsache, dass Personalentscheidungen einer oder mehrerer face-to-face-Gespräche bedürfen, führt zu einer hohen Komplexität. Die physische Ko-Präsenz nötigt den Anwesenden Verhaltensweisen auf, die sich sozial und psychologisch, aber kaum nur logisch verstehen lassen.

Bei Personalentscheidungen spielen Faktoren wie Glaubwürdigkeit, Authentizität, Humor, Ironie, Emotionen und auch unlogische, weil vom Standard abweichende, Entscheidungen eine wichtige Rolle. So legen beispielweise Bewerber während des Auswahlprozesses viel Wert auf nette und entgegenkommende Interviewer, weshalb bei Personalauswahlentscheidungen der Mensch der Maschine vorgezogen wird (vgl. Uggerslev et al. 2012).

Die Forschung im Bereich des Affective Computing versucht Maschinen beizubringen, wie sie Emotionen erkennen und darauf adäquat reagieren können. Erste Erfolge gibt es. Die gehen sogar soweit, dass ein neues Problem entsteht: ein allzu sorgloser und vertrauensvoller Umgang mit Apps und Robotern (sog. „overttrust“). Eines wird aber bleiben: freundliche und unfreundliche Gefühlsregungen basieren zum Großteil auf körperlich vermittelter Kommunikation und Empathie. Auf ein Lächeln reagieren wir in der Regel spontan mit einem Lächeln, weil wir die Freude des anderen mitempfinden. Ebenso haben wir alle am eigenen Leib schon gespürt, wie es sich anfühlt, traurig oder glücklich zu sein. Eine Maschine kann all das nur simulieren, weshalb die Probleme der ersten Welle zur Erforschung künstlicher Intelligenz aus den 1960er und 1970er Jahren bleiben (vgl. Franck 1992).

Statt einer bloßen „Auswahl nach Aktenlage“ gilt es, die sozialpsychologische Komplexität der Entscheidungsgrundlage und des Treffens der Entscheidung zu berücksichtigen. Das führt unweigerlich zu dem Punkt, dass Menschen weiterhin ein Wörtchen mitreden sollten – und wenn es nur das letzte Wort ist. In dieses Horn stößt auch das nächste Problem.

4. Algorithmen haben Vorurteile – keine technische Lösung in Sicht

Die vermuteten Zusammenhänge über Ursachen und Wirkungen sind in Algorithmen gegossen und die werden wiederum von Menschen programmiert – Menschen mit Werten, Interessen und auch Vorurteilen. Dass Vorurteile Eingang in Algorithmen finden können, wurde insbesondere für die Google-Suche immer wieder gezeigt – unter anderem von Google-Forschern selbst! Die Google-Suche scheint für Diskriminierung anfällig: weil bei der Suche nach dem Wort „Hand“ größtenteils Bilder von Händen mit heller Hautfarbe angezeigt werden; weil Suchen nach Namen, die afroamerikanisch klingen, häufiger mit Anzeigen verknüpft werden, die einen Eintrag im Vorstrafenregister nahe legen; weil Frauen bei Google weniger Anzeigen für gut bezahlte Jobs mit Führungspositionen eingespielt bekommen als Männer. Diese und andere Beispiele sind durch die Presse gegangen und die Such-Algorithmen wurden angepasst – doch in welche Richtung? Was wäre eine objektiv richtige Resultatseite zum Stichwort „Hand“? Richtig: die gibt es nicht.

Es gilt nicht nur der Satz „Wo Menschen sind, da menschelt‘s“, sondern auch die Algorithmen des maschinellen Lernens sind nicht frei von Verzerrungen. Neben der Tatsache, dass die Regeln von Menschen geschrieben werden, gibt es weitere „biases“. Anstelle des einen richtigen Modells und entsprechender Algorithmen ist beim maschinellen Lernen mit (mindestens) dreierlei Verzerrungen zu rechnen (vgl. Marsland, 2015; Witten et al., 2016):

  • Verzerrungen aufgrund der Sprache, in der ein Probleme mit Begriffen beschrieben (begriffen!) werden (language bias)
  • Such-Verzerrungen aufgrund der Reihenfolge, mit der ein Suchraum durchforstet wird (search bias)
  • Die Notwendigkeit zu entscheiden, wann ein Problem zu komplex wird und wie es einfacher beschrieben werden kann (overfitting-avoidance bias)

Die ersten beiden Verzerrungen zeigen sich in den oben erwähnten Studien zur Google-Suche – sehr komplex war die Aufgabenstellung hier ja nicht. Das overfitting-Problem ist etwas spezieller. Im Zusammenhang mit maschinellem Lernen auf Basis von (großen) Testdaten meint es: Das Modell passt sich zu sehr an die Testdaten an, hat sie quasi „auswendig gelernt“, aber des „Pudels Kern“ nicht erfasst, weshalb neue Daten falsch verarbeitet werden. Statistisch ausgedrückt: Es besteht die Gefahr, dass gerade bei kleinen Stichproben zwar die Vorhersage in dieser speziellen Stichprobe gelingt, nicht aber für eine neue Stichprobe. Drastisches Beispiel: ein autonom fahrender PkW hat in vielen Tests gelernt, Straßensituationen mit Autos, LkWs, Straßenschildern, Personen etc. zu erkennen, ist aber für Auffahrunfälle trainiert und nicht auf Querverkehr – deshalb erkennt das Auto einen kreuzenden Sattelzug nicht und rast ungebremst in ihn hinein. Genau deswegen empfiehlt SAP seinen Kunden manuelle Verifikationsschritte einzubauen (und genau deswegen wurde auch Tesla nicht belangt, weil sich der Fahrer nicht auf den Autopiloten hätte verlassen dürfen, sondern „Verifikationen“ hätte vornehmen sollen).

Die oben beschriebenen Verzerrungen sind zwar bekannt, ihre Lösung aber nicht immer möglich – insbesondere, wenn die Datenmenge zu klein ist. Denn wenn die Datenbasis für das Testing zu klein ist, dann soll die Validierung durch Menschen erfolgen. Und der bringt wieder seine eigenen Vorurteile, Interessen und sonstigen Verzerrungen mit hinein.

5. Menschen wollen, dass Personalentscheidungen von Menschen getroffen werden – keine technische Lösung in Sicht

Selbst bei Google, wo eigentlich alles auf Basis von Daten entschieden werden soll, haben sich die Mitarbeiter gegen Algorithmen-basierte Personalentscheidungen ausgesprochen: „People should make people decisions“. Mit diesem Basta-Argument wurden die Beförderungsentscheidungen bei Goolge wieder in die Hände von Managern gelegt – obwohl der entwickelte Algorithmus eigenen Angaben zufolge eine sehr hohe Trefferquote hatte. Das normative „should“ zeigt: So lange Unternehmen nicht voll autonom laufen, wird sich der Mensch wehren. Und zwar mit Händen, Füßen und seinen Instinkten – den sozialen wie den egoistischen. Datenschutzrechtliche Bedenken und die Angst vor dem „gläsernen Mitarbeiter“ spielen auch eine Rolle.

Das eigentliche Problem geht aber noch über Datenschutz und Ängste hinaus und setzt an einer grundlegenden Eigenschaft von Entscheidungen an: sie fallen nicht, sie werden getroffen. In der Entscheidungsforschung ist schon lange die Unterscheidung zwischen „diagnostic decision making“ und „option selection decision making“ bekannt (Klein et al. 1993). Letztes meint, dass Entscheiden nichts anderes ist als das Bewerten von Alternativen und das Auswählen der besten Option. Die Entscheidungen fallen dann gemäß bestimmter (Rechen-)Regeln. Das ist das Geschäft von People Analytics. Bei Ersterem fallen die Entscheidungen nicht, sondern sie werden gefällt oder getroffen. Sie sind Dezisionen: Schnitte in die Welt (Ortmann 2011). Entscheiden heißt dann, sich über den Mangel an guten Gründen hinwegzusetzen. Das ist das Geschäft von (Personal-)Managern.

Bei der routinemäßigen Verarbeitung von Daten und der Mustererkennung sind Algorithmen den Menschen überlegen. Was man aber nicht vergessen darf: eine Entscheidung zu treffen, ist nur ein Teil, wenn es um Personalentscheidungen geht. Vor, während und nach der Entscheidung gibt es aber eine Reihe von Fragen, die sich nicht durch Daten, sondern nur durch Aushandlungsprozesse beantworten lassen:

  • Was zählt im Unternehmen als Erfolg? Was ist wichtiger, was weniger wichtig (zum Beispiel Umsatz oder Gewinn, Gewinn oder Kundenbetreuung, Umsatz jetzt vs. Umsätze entlang des Kundenlebenszyklus, etc.)?
  • Wie und von wem soll die Entscheidung kommuniziert werden?
  • Wie schafft man es, dass sich Mitarbeiter nett und fair behandelt fühlen? Oder dass sie zufrieden sind? Sind Nettigkeit, Fairness und Zufriedenheit überhaupt erfolgsrelevant?
  • Wie gehe ich mit Kritik an der Entscheidung um?

Fazit

Algorithmen können zur Entscheidungsunterstützung eingesetzt werden. Die Anwender sollten über entsprechende IT- und Statistik-Kompetenzen verfügen, um mögliche Verzerrungen zu erkennen. Bei vielen Tätigkeiten rund um eine Personalentscheidung spielen allerdings Aspekte eine Rolle, die nicht in Algorithmen gegossen werden können. Wo Menschen sind, da menschelt‘s – und deswegen wird es noch einige Jahre heißen: Mensch und Maschine, statt Mensch oder Maschine. Da sind sich sogar Softwareanbieter und Wissenschaftler einig. Wenn aber der Mensch mitmischt, validiert und kalibriert, dann sind Emotionen, Stereotypen und Vorlieben noch längst nicht raus aus dem Spiel. Business beyond bias? Nein: There’s no business without bias!