Wenn der Roboter rekrutiert: Chance für mehr Menschlichkeit am Arbeitsmarkt?
Künstliche Intelligenz wird im Personalmanagement immer öfter eingesetzt. Dabei werden Daten aus der Vergangenheit für Aussagen über die Zukunft ausgewertet. Das birgt Gefahren.
Künstliche Intelligenz (KI) im Personalwesen: Zahlreiche Start-ups versprechen nicht weniger als die Entdeckung des Steins der Weisen, und viele Personaler fragen sich, was davon nun eigentlich zu halten ist. Im Einsatz von Algorithmen stecken große Chancen zur Verbesserung von Personalmarketing, Personalauswahl und Personalentwicklung. Gleichwohl produzieren viele Anbieter auch nicht viel mehr als heiße Luft oder – noch schlimmer – hinter der komplexen Mathematik moderner Systeme versteckt sich methodisch, rechtlich und ethisch äußerst Bedenkliches.
Eines sollte klar sein: HR muss sich intensiv mit KI befassen. Aber nicht weil alles, was unter diesem Fähnchen segelt, automatisch gut und begrüßenswert wäre. Nein, HR muss sich dieses Themas annehmen, um Chancen und Risiken, Dos und Don’ts auch fundiert bewerten zu können. Es gilt: Wenn HR dazu nichts Fundiertes betragen kann, dann entscheidet HR auch nicht mit, ob und in welcher Form KI im Personalwesen eingesetzt werden wird oder nicht.
Tatsächlich gaben im Frühjahr 2019 im Rahmen einer Umfrage des Bundesverbands der Personalmanager und vom Ethikrat HR Tech bereits elf Prozent der Unternehmen an, ihre Mitarbeiterauswahl durch KI zu unterstützen. Heute würde diese Zahl sicherlich noch deutlich höher ausfallen, allein da die Coronapandemie noch einmal einen beträchtlichen Digitalisierungsschub ausgelöst hat. Aber auch hier gilt: Was die elf Prozent tatsächlich gemeint haben, als sie die Frage nach dem Einsatz von „künstlicher Intelligenz“ bejahten, steht auf einem anderen Blatt. Um „KI“ handelt es sich allenfalls im Sinne automatisierter Bewertungen, aber ganz sicher nicht im Sinne der autonom lernenden Entscheidungssysteme.
Wo stehen wir also, Stand heute, eigentlich bei dem Thema?
Gibt es „künstliche Intelligenz“ tatsächlich schon?
Wenn über den Einsatz von „algorithmischen Entscheidungssystemen“ in der Personalgewinnung gesprochen wird, dann meist im Kontext der Personalauswahl.
Mit dem Schlagwort des „Robo-Recruitings“ wird dabei die Assoziation hervorgerufen, eine Maschine prüfe umfassend die Eignung von Kandidaten und nehme unmittelbar Einstellungszusagen oder -absagen vor. Algorithmen, die Menschen bewerten – eine Vorstellung, von der eine dystopische Faszination ausgeht. Vermutlich stehen sie deswegen so im Fokus der Diskussion.
Tatsächlich spielen Algorithmen aber eine viel größere Rolle, bevor es überhaupt zur Bewerbung kommt. Ebenso wie bei Facebook oder Google entscheiden in Stellenbörsen oder auf Karrierenetzwerken inzwischen Algorithmen in erheblichem Maße darüber mit, welche Inhalte den Nutzer·innen überhaupt angezeigt werden. Das Stichwort lautet hier Programmatic Advertising. Wahrscheinlich unbewusst, setzt jedes Unternehmen so im Personalmarketing bereits KI ein.
Doch egal wie wir solche Systeme nennen – am Ende ist alles reine Mathematik. Merkmale werden miteinander verglichen und auf Muster untersucht. Diese Muster führen zu Wahrscheinlichkeitsaussagen und diese wiederum – so man die KI denn lässt – auch zu autonomen Entscheidungen. Dieses Prinzip führt zu dem Begriff der „künstlichen Intelligenz“. Es ist nur wichtig, zu verstehen, dass sich unter dem Schlagwort mittlerweile sehr vieles sammelt.
Schwache und starke KI
Es beginnt bei Algorithmen, die automatisiert gewisse Bewertungen vornehmen, dabei aber letztlich fix definiert sind. Auch die simple Regel „alle Bewerber mit einer Fünf in Mathematik erhalten eine Absage“ ist ein Algorithmus. Je mehr Merkmale, Merkmalsausprägungen und dynamische Bedingungen hinzukommen, wird es zwar schnell komplexer, aber der Algorithmus folgt weiter einer definierten und jederzeit nachvollziehbaren Logik. Insofern reden wir hier bestenfalls über eine „schwache KI“.
Am anderen Ende des Spektrums stehen Algorithmen, die sich selbsttätig verändern. Auch hier steht am Anfang eine Wenn-dann-Beziehung, aber das Ergebnis fließt wiederum als neuer Datenpunkt in den Algorithmus ein, führt zu Umgewichtungen der Parameter und wieder zu neuen Wenn-dann-Berechnungen. Das ist der Bereich, der als Machine-Learning bezeichnet wird. Allerdings besteht hierbei die Gefahr, dass Algorithmen selbsttätig in die falsche Richtung laufen. Gemeint ist das Folgende: Hat die Maschine eine Bewertung aufgrund eines sinnvollen Zusammenhangs vorgenommen oder auf Basis von Scheinkorrelationen? Ist der Zusammenhang zwar mathematisch „richtig“, aber ethisch und/oder juristisch ungewollt oder sogar unzulässig? Je autonomer das System sich weiterentwickelt, desto weniger bestehen Interventionsmöglichkeiten.
Hinzu kommt ein weiteres Problem: Lernende Algorithmen müssen trainiert werden. Hierfür werden sehr viele Daten benötigt. In der Theorie gibt es bei der Personalgewinnung unendlich viele Datenpunkte, weil theoretisch alle Informationen – bis hin dazu, wie ein·e Mitarbeiter·in die Maus über den Bildschirm bewegt – Informationen sein können. In der Praxis sprechen wir aber bei den meisten Unternehmen noch über „Small Data“. Es gibt oft kaum verwertbare Informationen darüber, wer als erfolgreicher Mitarbeiter zu definieren oder nach welchen Kriterien das Attribut „erfolgreich“ überhaupt zu bestimmen ist. Oder die Daten liegen nur analog vor, sodass sie für eine maschinelle Verarbeitung schon rein technisch unbrauchbar sind. In all diesen Fällen verhält sich ein lernender Algorithmus wie ein Schwimmer, der in einem Becken ohne Wasser trainieren soll.
Und selbst wenn Daten in hinreichender Quantität und Qualität vorliegen, so handelt sich dabei notwendig um vergangenheitsbezogene Daten. Damit daraus eine verlässliche Projektion für die Zukunft abgleitet werden kann, müssten die vergangenheitsbezogenen Daten typisch für die Gegenwart und Zukunft sein. Würde man heute einen Algorithmus im Recruiting einsetzen, der mit Daten aus den Jahren vor Corona trainiert wurde, dann dürfte jedem Laien einleuchten, dass in diesen Daten wahrscheinlich keine Effekte eines „pandemiebedingten exogenen Schocks“ enthalten sein können. Um in dem Bild vom Schwimmer zu bleiben: Dieser hat fleißig im Schwimmbecken bei 20 Grad Wassertemperatur trainiert und soll nun bei 2 Grad und 10 Windstärken auf offener See ein Rennen schwimmen.
Amazon zeigt wie KI in HR geht – oder eben nicht
Es gibt einige griffige Beispiele, die die oben beschriebenen Probleme recht gut illustrieren. Amazon setzte etwa einen Algorithmus ein, der auf Basis von Performancedaten Muster besonders erfolgreicher Mitarbeiter identifizierte und dann auf dieser Basis Beurteilungen von Bewerbern und Bewerberinnen vornahm. In der Vergangenheit waren es allerdings insbesondere weiße Männer mittleren Alters, die im Unternehmen als leistungsstark eingestuft wurden. Infolgedessen bewertete der Algorithmus alles, was diesem Typus entsprach, positiv. Ergo wurden Frauen oder Menschen mit nicht-weißer Hautfarbe automatisch abgewertet.
KI arbeitet hier aber nicht plump nach dem Motto „Frau = abwerten“. Nein, die KI identifiziert in dem riesigen Wust an Daten solche Merkmale, die mit einer höheren Wahrscheinlichkeit mit den zu suchenden Merkmalen korrelieren (Mustererkennung). Diskriminiert wurde in diesem Fall nicht nach dem Merkmal „Frau“, sondern zum Beispiel dann, wenn eine Person auf einer bestimmten Hochschule studiert hat, die deutlich überproportional weibliche Absolventinnen hervorbringt. Die Logik war also: Bestimmte Hochschule = viele weibliche Absolventinnen = Bewerber·in wahrscheinlich weiblich = Bewerber·in wahrscheinlich weniger geeignet. Nicht nur das ethische Problem ist offensichtlich.
Ebenso wenig überzeugt das Argument vieler KI-Befürworter, der Algorithmus analysiere unvoreingenommen Merkmale, agiere entsprechend und deswegen sei es nur richtig, eben weißen Männer mittleren Alters einzustellen. Man könnte argumentieren, dass diese eben nun mal objektiv betrachtet besser geeignet seien und wenn dem so ist, dann ist es auch korrekt, diese bevorzugt einzustellen. Die KI entscheide also vorurteilsfrei, weil sie nicht menschlichen Subjektivitäten oder Befindlichkeiten unterliegt.
Trotzdem bleibt das Problem der vergangenheitsbezogenen Trainingsdaten des Algorithmus. Denn wurden in der Vergangenheit vorwiegend mittelalte, weiße Männer eingestellt, dann ist eben nicht ausgeschlossen, dass sie nur deshalb „erfolgreicher“ als andere gewesen sein konnten, weil sie den überwiegenden Teil der Belegschaft stellten. Ganz konkret: Wenn der Algorithmus die Performance anhand der Anzahl verpackter Pakete pro Stunde misst und die Mitarbeiter nach diesem Kriterium reiht, ist die Wahrscheinlichkeit, dass der beste Mitarbeiter in dieser Reihe eine junge, schwarze Frau ist, schon deshalb niedrig, weil es in der Belegschaft nur wenige junge, schwarze Frauen gibt. Letztlich zementiert der Algorithmus einen Fehler der Vergangenheit – mangelnde Diversität – automatisiert für die Zukunft. So gesehen ist dieser Algorithmus eben nicht nur ein ethisches Problem, sondern auch ein betriebswirtschaftliches, weil er möglicherweise auch zu suboptimalen Auswahlentscheidungen führt. Amazon ist es übrigens nicht gelungen, dem Algorithmus dieses unerwünschte Verhalten abzugewöhnen. Diese Tatsache spricht für sich.
Maschinen, die unsere Mimik auswerten
Ein anderes viel diskutiertes Thema ist die automatisierte Auswertung von Sprache, Mimik und Gestik zur Analyse von Persönlichkeitsmerkmalen. Abgesehen davon, dass Persönlichkeit selber nur einen vergleichsweise kleinen Aufklärungsbeitrag zur Vorhersage von Berufserfolg liefert, ist es so, dass äußere Merkmale wie Sprache oder Mimik so gut wie keinen validen Rückschluss darauf zulassen, welchen Charakter ein Mensch hat. Richtig ist zwar, dass Maschinen relativ gut den Gemütszustand einer Person erkennen können, also ob jemand traurig, nervös oder wütend ist. Dabei handelt es sich jedoch um reine Momentaufnahmen. In der Psychologie spricht man von „State-Merkmalen“. Charakter- oder Persönlichkeit ist demgegenüber nicht flüchtig, sondern stabil. Solche „Trait-Merkmale“ stehen dem Menschen jedoch nicht qua Mimik ins Gesicht geschrieben. Wer hierzu sehr schöne Beispiele sehen möchte, dem empfehle ich den Artikel „KI-Gesichtserkennung findet Waldo. Erkennt sie auch Persönlichkeit?" oder das vielbeachtete Experiment des BR mit einer solchen Gesichtserkennungs-KI.
Lässt man als Unternehmen dennoch derartige Analysen im Rahmen der Eignungsdiagnostik zu, ist das nicht nur methodisch und ökonomisch äußerst zweifelhaft, sondern auch ethisch und juristisch. Juristisch übrigens deshalb, weil das Merkmal der Erforderlichkeit im Sinne von §26 BDSG kaum erfüllt werden kann.
Es wird deutlich, dass das Argument der „Vorurteilsfreiheit“ von Algorithmen einer genaueren Betrachtung nicht standhält. Entweder es handelt sich um Algorithmen, die Menschen definiert haben und daher natürlich auch deren Vorurteile beinhalten können. Oder es handelt sich um lernende Algorithmen, bei denen die Maschine per Trial and Error zu Schlussfolgerungen kommt, die stark von der Qualität wie Quantität der Trainingsdaten abhängen und somit ebenfalls bestehende Vorurteile fortschreiben können. Insofern sind Maschinen zwar vielleicht per Definition „objektiv“, aber natürlich nicht davor gefeit, „biased“ zu sein. Von daher sollte die Zukunft auf jeden Fall ein sinnvolles Miteinander von Mensch und Maschine sein. Dem Menschen kommt hierbei unter anderem die Rolle des Aufsehers zu, der die Bewertungen und Entscheidungen des Algorithmus immer auch einer Plausibilitätskontrolle unterzieht, jederzeit eingreifen kann und wenn nötig auch den Kill-Switch betätigt. Wenn schon nicht „in the loop“, so doch zumindest „on the loop“…
Algorithmen können auch für mehr Menschlichkeit in Personalprozessen führen
Wir sollten auf keinen Fall den Fehler machen, den ewigen Tech-Skeptikern eine Ausrede zu liefern, sich nicht mit algorithmischen Entscheidungssysteme zu befassen. Ich bin mir mehr als sicher, dass diese Systeme künftig in immer stärkerem Maß in HR-Plattformen und –Systemen implementiert werden. Dafür werden schon die betriebswirtschaftlichen Argumente sorgen. Ein Algorithmus hat keinen Urlaub, steht rund um die Uhr zur Verfügung und verrichtet seine Aufgaben ermüdungsfrei und ohne Formschwankungen. Das Personalwesen muss dies anerkennen und die Chancen wie Risiken (er-)kennen. Vor allem, wenn das Personalwesen selbst Einfluss auf die Prozesse und die Gestaltung der Systeme nehmen will. Ein „guter“ Algorithmus, also einer der belegte und belegbare Resultate erzeugt, der nachvollziehbar, transparent und jederzeit auch von außen durch den Menschen beherrschbar ist, kann zu neuen Erkenntnissen und zu einer besseren Personalarbeit führen: „besser“ im Sinne von „passendere Mitarbeiter auf passenderen Jobs in passenderen Unternehmen“.
So können Algorithmen auch dazu führen, dass wieder mehr Menschlichkeit in die Personalprozesse einzieht. Dies kann, wenn die Maschine verstärkt bei Routinetätigkeiten für Entlastung sorgt, für eine intensivere „menschliche“ Beschäftigung mit den Kandidat·innen genutzt werden.
Diese Grundvoraussetzungen sollte ein Analytics Tool erfüllen
Normen im Sinne gesetzlicher Regelungen gibt es noch nicht wirklich, sieht man mal von datenschutzrechtlichen Regelungen ab, die etwas um die Ecke gedacht auch auf KI angewandt werden können. Ich gehe allerdings davon aus, dass es nur eine Frage der Zeit ist, bis diese Lücke geschlossen wird. Aber es gibt verschiedene Stellen, die sich der Formulierung von Regeln und Anforderungen an algorithmischen Entscheidungssysteme widmen. Speziell auf den Kontext HR bezogen gibt es Richtlinien, die der Ethikbeirat HR-Tech formuliert hat. Dies ist wichtig, richtig und zwingend notwendig. Schließlich hat auch die EU-Kommission Anwendungen im Personalmanagement ausnahmslos als „Anwendungen mit hohem Risiko“ eingestuft.
Auch die Bundesregierung musste sich im Rahmen einer Anfrage der Bundestagsfraktion von DIE LINKE bereits mit KI im Personalwesen befassen.
Die Regeln des Ethikbeirats HR Tech nennen hierbei folgende Anforderungen:
Transparenz der Zielsetzung,
empirische Evaluierung,
Entscheidungsprimat des Menschen,
Sachkenntnis der die Algorithmen einsetzenden Personen,
Haftung und Verantwortung,
Zweckbindung/Datenminimierung,
Informationspflicht,
Datenqualität und Vermeidung von Diskriminierung,
stetige Überprüfung und
die sogenannte Subjektqualität.
Dabei ragen für mich besonders die Punkte Subjektqualität und empirische Evidenz heraus. Ersteres beinhaltet die Forderung, dass für die Nutzung in KI-Lösungen keine Daten erhoben und verwendet werden, welche der willentlichen Steuerung der Betroffenen grundsätzlich entzogen sind. Letzteres bedeutet, dass ein Algorithmus nachvollziehbare und nachweisbare Zusammenhänge verwenden muss. Die aus der empirischen Sozialforschung bekannten Gütekriterien wie Objektivität, Reliabilität und Validität gelten für algorithmische Entscheidungssysteme selbstverständlich gleichermaßen. Und natürlich reicht es hierbei auch nicht aus Korrelationen zu finden, sondern es bedarf belastbarer Kausalitäten.
__________
Was denkt Ihr? Ist KI in der Personalarbeit Chance oder gefährlich? Diskutiert mit in den Kommentaren.
__________