Publikation Erzeugung synthetischer Datensätze durch multiple Imputation: Theorie und Implementierung in der Praxis

Datum 15. Mai 2011

Dr. Jörg Drechsler hat an der Otto-Friedrich-Universität Bamberg seine Dissertation zum Thema “Generating Multiply Imputed Synthetic Datasets: Theory and Implementation” verfasst, die mit dem Gerhard-Fürst-Preis 2010 in der Kategorie "Dissertationen“ ausgezeichnet wurde. Der Beitrag stellt die Dissertation näher vor.

In den letzten Jahren wurden in der Literatur verschiedene Varianten zur Erzeugung synthetischer Daten vorgeschlagen. Im Rahmen dieses Beitrages wurden diese Verfahren miteinander verglichen und jeweils auf das Betriebspanel des Instituts für Arbeitsmarkt- und Berufsforschung (IAB) der Bundesagentur für Arbeit angewendet. Ein wichtiges Ergebnis dieser Arbeit sind die synthetischen Datensätze der Welle 2007 des IAB-Betriebspanels, die seit Anfang 2011 über das Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung verfügbar sind. Außerdem wird ein neues zweistufiges Imputationsverfahren vorgestellt, das eine bessere Abwägung zwischen der Begrenzung des Re-Identifikationsrisikos und einer möglichst hohen Datenqualität zulässt. Daneben werden neue Maße vorgeschlagen, um das verbleibende Re-Identifikationsrisiko der synthetischen Datensätze zu messen.

Auszug aus der Publikation "WISTA – Wirtschaft und Statistik", April 2011

Autor: Dr. Jörg Drechsler