Veranstaltungen 15. Wissenschaftliche Tagung am 20. und 21. Juni 2024

Datenerhebung, Datenqualität und Datenethik in Zeiten von künstlicher Intelligenz

Werkzeug, Partner, Quelle oder Risiko? Zur Rolle von künstlicher Intelligenz für den sozialwissenschaftlichen Umgang mit Daten

Dr. Johannes Breuer

GESIS – Leibniz-Institut für Sozialwissenschaften, Abteilung Computational Social Science, Köln

Center for Advanced Internet Studies (CAIS), Team Research Data & Methods, Bochum

Abstract

Die jüngsten Entwicklungen im Bereich der künstlichen Intelligenz (KI) – speziell den sogenannten großen Sprachmodellen/Large Language Models (LLMs) – zeigen bereits deutliche Auswirkungen in vielen gesellschaftlichen Bereichen. Dies betrifft insbesondere auch die Wissenschaft. Ähnlich wie andere digitale Technologien hat KI vielfältige Beziehungen zur Wissenschaft. Sie ist a) ein Ergebnis wissenschaftlicher Forschung, b) ein Studienobjekt und c) ein mächtiges Werkzeug, welches das Potenzial hat, Forschung zu erweitern und vereinfachen. Insbesondere die dritte Art von Verhältnis ist auch für die sozialwissenschaftliche Forschung äußerst relevant. KI kann prinzipiell in allen Phasen des Forschungszyklus in der empirischen Sozialforschung zum Einsatz kommen: von der Ideenfindung und Studienplanung über die Erhebung, Aufbereitung und Analyse der Daten bis zur Veröffentlichung. Großes Potenzial gibt es insbesondere für die Erhebung, Aufbereitung und Auswertung von Daten für die sozialwissenschaftliche Forschung. Im Hinblick auf Datenaufbereitung und -auswertung können LLMs und darauf basierende Chatbots z.B. genutzt werden, um Code für in den Sozialwissenschaften für diese Zwecke häufig genutzte Programmiersprachen wie R oder Python zu generieren oder optimieren. Zudem können KI-Tools insbesondere auch für die Arbeit mit Textdaten sowie – wenngleich aktuell noch in begrenzterem Umfang – auch Audio- oder Bilddaten eingesetzt werden. So gibt es bereits umfangreiche Arbeiten zur Nutzung von LLMs für die Codierung offener Antworten in Surveys oder die Klassifikation anderer Textdaten (z.B. Social-Media-Posts). Dabei sind die entsprechenden Tools auch im Hinblick auf eine Steigerung von Effizienz sowie eine Senkung von Kosten interessant, weil sie für (Klassifikations-)Aufgaben genutzt werden können, für die ansonsten menschliche Kodiererinnen und Kodierer benötigt werden. Neben Werkzeugen können LLMs und KI-basierte Anwendungen für die sozialwissenschaftliche Forschung auch selbst Datenquellen sein. Erste Studien untersuchen beispielsweise die Nutzung von LLMs, um Befragungsdaten (speziell auch offene Antworten) zu simulieren. Zudem können Daten zu Anfragen, die Nutzende etwa an LLM-basierte Chatbots wie ChatGPT oder Bard stellen, perspektivisch eine sozialwissenschaftlich interessante Ergänzung zu Suchmaschinen- oder Social-Media-Daten in der Kategorie der digitalen Verhaltensdaten sein. Trotz der zahlreichen Potenziale, die KI für den sozialwissenschaftlichen Umgang mit Daten hat, gibt es eine Vielzahl an Herausforderungen, die Forschende berücksichtigen und mit diesen umgehen müssen. Viele davon betreffen rechtliche und ethische Fragen, z.B. in Bezug auf Datenschutz und Urheberrecht. Ein damit verbundenes Problem ist ferner die Abhängigkeit von kommerziellen Diensten, die sich etwa für den Zugang zu digitalen Verhaltensdaten bereits als riskant erwiesen hat. Vor diesem Hintergrund ist die Nutzung und Unterstützung von Free- und Open-Source-Projekten (FOSS) ein besonders relevantes Thema. Weitere Punkte, für die sich beim Einsatz von KI in der Arbeit mit Daten und darüber hinaus in der sozialwissenschaftlichen Forschung Fragen ergeben, sind Verantwortung und Autorschaft. Konkret betrifft dies beispielsweise den Umgang mit Fehlern in der Datenerhebung, -aufbereitung und -auswertung von oder auch die Pflicht, auf die Nutzung entsprechender KI-Anwendungen hinzuweisen bzw. diese zu zitieren. Ziel des Beitrags ist es, die Einsatzmöglichkeiten von KI für den sozialwissenschaftlichen Umgang mit Daten zu diskutieren, dabei gleichsam Limitationen und Risiken zu berücksichtigen und Antworten auf die Frage zu entwickeln, welche Rolle(n) KI in diesem Kontext spielen kann. Neben aktuellen Themen soll dabei auch ein Ausblick auf mögliche zukünftige Entwicklungen und Szenarien gewagt werden.