Publikation Web Scraping zur Gewinnung von Testdaten für administrative Register

Datum 15. Juni 2020

Web Scraping verspricht eine kosten- und zeiteffiziente Nutzung von öffentlich zugänglichen Informationen aus dem Internet. Um Testdaten für die Erstellung eines bundesweiten Mortalitätsregisters zu generieren, könnten online gestellte Traueranzeigen mittels Web Scraping genutzt werden. Aus diesem Grund wurden für die Jahre 2015 und 2016 für eine Stadt die online extrahierten Traueranzeigen mit amtlichen Daten verglichen. Bereits bei der Konstruktion von Web Scrapern zeigten sich erhebliche Probleme. Ein Vergleich der extrahierten Informationen mit amtlichen Daten zeigen Unterschiede hinsichtlich Gesamtzahl, Geschlecht, ethnischer Zugehörigkeit und Alter der Verstorbenen.

Auszug aus der Publikation "WISTA - Wirtschaft und Statistik", 3/2020

Autorin: Sarah Redlich