Veranstaltungen 15. Wissenschaftliche Tagung am 20. und 21. Juni 2024

Datenerhebung, Datenqualität und Datenethik in Zeiten von künstlicher Intelligenz

Berufscodierung mit Künstlicher Intelligenz

Johannes Eggs, Nadja Aust, Karen Marwinski

infas Institut für angewandte Sozialwissenschaft GmbH, Bonn

Abstract

infas hat zusammen mit einem externen Anbieter ein KI-Modell zur Berufscodierung entwickelt. Im Rahmen unseres Vortrages werden wir den Entwicklungsprozess, die Einführung und den Einsatz dieses KI-Modells bei infas vorstellen.

Die Erhebung von Berufsangaben und beruflichen Tätigkeiten ist neben amtlichen Statistiken zur Erfassung der Beschäftigungssituation in den Sozialwissenschaften insbesondere für alle Analysen von Clustern und Gruppen von Bedeutung. Als Teil demographischer Variablen wird die berufliche Tätigkeit als offene Angabe mit zusätzlichen Informationen der Stellung im Beruf, der Branche, Selbstständigkeit, Leitungsfunktion und der Anzahl zu beaufsichtigender Personen und des Ausbildungsabschlusses erfasst. In den letzten Jahren hat die Anzahl der zu codierenden Berufsangaben immer mehr zugenommen. Im Jahr 2021 wurden bei infas über 300 000 Berufsangaben in KldB-2010 und ISCO-08 händisch codiert. Daher entstand die Idee, auf künstliche Intelligenz (KI) für die Codierung von Berufs- und Tätigkeitsangaben zurückzugreifen. Zusammen mit der externen Softwarefirma deepsight hat in-fas mit iCat (infas Categorie) ein KI-Modell zur Berufscodierung entwickelt. Zum Training des Modells wurden die Codierungen der letzten zehn Jahren Berufscodierung in den beiden Kategorienschemata KldB-2010 und ISCO-08 genutzt. Der daraus entwickelte Algorithmus kann mittels Textanalyse und Auswertung der Zusatzinformationen die Wahrscheinlichkeit für einen Code berechnen und diesen den neuen Daten zuweisen. Dabei trifft iCat sogar teilweise die Entscheidung für einen eindeutigen Code.

In den übrigen Fällen werden zwei Codes zugeordnet. Diese Fälle müssen von einem Codierer entschieden werden.

In den Entwicklungsschleifen des KI-Modells mussten die Ergebnisse des Machine-Learning-Algorithmus immer wieder durch die erfahrenen Codierer bewertet werden. Auf diese Weise konnte zunächst ein valides Modell für die Berufscodierung entwickelt werden, das fortlaufend in einem weiteren Lernprozess von entsprechendem Feedback profitiert.

Mittlerweile kann bei einer guten Datenlage, das heißt klaren Angaben in den offenen Nennungen, die untereinander korrespondieren und vollständigen sowie plausiblen Zusatzangaben von einer eindeutigen Trefferquote von bis zu 70 % ausgegangen werden.

iCat ist ein vielversprechendes System zur Codierung von Berufsangaben. Es arbeitet effizient und zeit- und kostensparend bei gleichbleibend hoher Qualität. Mit einer standardisierten Abfrage im Fragebogen lassen sich bereits gute Codierergebnisse erzielen. Für einige Sonderbereiche, wie beispielsweise der Codierung von Ausbildungsberufen oder der Codierung beruflicher Tätigkeiten aus anderen Ländern, wird daran gearbeitet von dem Basismodell abzweigend ein neues Modell zu trainieren, dass dann mit der Zeit in der Lage wäre, Spezifika ebenfalls mit guten Ergebnissen zu begegnen.