Veranstaltungen 15. Wissenschaftliche Tagung am 20. und 21. Juni 2024

Datenerhebung, Datenqualität und Datenethik in Zeiten von künstlicher Intelligenz

Das Beste aus beiden Welten: Hybride Kodierung durch "Active Learning"

Dr. Alexander Meier, Dr. Melanie Köhler

deepsight GmbH

Abstract

Wenn wir uns im Bereich der Befragungen bewegen, kann Künstliche Intelligenz (KI) inzwischen zuverlässig zur thematischen Einordnung bzw. Kodierung von frei-formulierten Kommentaren eingesetzt werden (und z.B. Datenbereinigung, Anonymisierung und Übersetzung). Grundsätzlich kommen zwei Ansätze des maschinellen Lernens mit ihren eigenen Stärken und Schwächen in Frage: "Unsupervised Learning" und "Supervised Learning". Die hybride Anwendung beider kann mit Hilfe von "Active Learning" z.B. Markforscherinnen und Marktforscher unterstützen, Textdaten zielgerichtet, projektspezifisch, bei höchster Genauigkeit und vergleichbar schnell auszuwerten.

Unsupervised Learning nutzt für die Themenauswertung ohne Training explorative Algorithmen, die aus den Input-Daten versucht, die bestmögliche Anzahl an Themengruppen zu erstellen. Diese Gruppen sind möglichst trennscharf voneinander bzw. heterogen und die Kommentare pro Gruppe möglichst homogen. Dieser Ansatz hat zahlreiche Vorteile, z.B.: (1) die Ergebnisse sind unvoreingenommen, weil ausschließlich die Input-Daten für die Themengruppierung verwendet werden, und können somit aktuelle Themen nicht verfehlen (z.B. "4-Tage-Woche"), (2) es sind keine Daten für das Training des KI-Modells vorab notwendig, (3) die Methode ist direkt einsetzbar, und (4) es müssen keine potenziell vorkommende Themen vordefiniert werden. Die zwei primären Nachteile sind die erschwerte Vergleichbarkeit bei sich wiederholenden Befragungen, und die fehlende Expertise und Erfahrung, die Forscherinnen und Forscher projektspezifisch einbringen könnten.

Supervised Learning trainiert an Daten, in denen bereits Codes den Kommentaren zugeordnet wurden. Über verschiedene Evaluierungsverfahren können die idealen Parameter für ein Modell bestimmt werden, welches auf ähnliche Daten angewandt werden kann. Dieser Ansatz hat hauptsächlich den Vorteil, dass das KI-Modell so trainiert werden kann, dass es sich nahezu exakt wie die Forscherinnen und Forscher bei der Kodierung verhält. D.h. es kann eine bestimmte thematische Ausrichtung, spezifische Projekttypen und sogar gewisse Interpretation-Ebenen lernen. Zusätzlich können die antrainierten Codes mit ähnlichen Studien verglichen werden, können aber keine neuen Codes ohne Nachtraining erkennen. Das Training der KI-Modelle kann je nach Komplexität des Themas sehr zeitaufwendig sein.

Wir zeigen, dass die Kombination und Anwendung beider Ansätze die bestmöglichen Ergebnisse erzielt, bei hoher Qualität und ähnlichem Zeitersparnis. Die Analyse läuft in drei Phasen ab:

  1. Die Textdaten werden unvoreingenommen über Unsupervised Learning gruppiert. Trennscharfe Themengruppen werden erhalten und müssen nach kurzer Prüfung nur benannt werden.
  2. Beispielkommentare werden mit Themenvorschlägen präsentiert, die nicht mit hoher Genauigkeit zugeordnet werden konnten. Zusätzlich können spezifische Themen intelligent (auf Basis von Deep-Learning-Modellen) gesucht werden, die für Forscherinnen und Forscher wichtig sind. Mit deren manuellen Kodierung von nur wenigen Kommentaren (z.B. 5-20 Kommentare pro Thema, abhängig von der Komplexität und Datenmenge) wird "Active Learning" verwendet, um "leichte" Modelle pro Thema zu erstellen.
  3. Die neu-erstellten Modelle werden auf den gesamten Datensatz angewandt, kodieren die Kommentare und können bei Bedarf angepasst werden (z.B. Kombination von mehreren Themen). Diese Modelle sind danach so trainiert, dass sie für die Kodierung neuer Datensätze verwendet werden können.

Bei folgenden Analysen können die implizit trainierten Modelle in Kombination mit dem Unsupervised-Learning-Ansatz genutzt werden. Dadurch wird ein Großteil der Daten direkt kodiert und nur mehrdeutige Kommentare werden in der Active-Learning-Phase präsentiert (oder der Restegruppe zugeordnet). Schließlich kann dieser hybride Ansatz die Qualität der Ergebnisse steigern, indem die Vorteile der schnellen KI-Kodierung und die Expertise von Forscherinnen und Forscher gewinnbringend eingesetzt werden kann.