Experimentelle Statistiken Eine frühe Schätzung des Umsatzaggregats im Verarbeitenden Gewerbe auf Basis von Mikrodaten

EXSTAT

Projekthintergrund

Belastbare Daten zur aktuellen konjunkturellen Entwicklung in Deutschland sind von entscheidender Bedeutung, insbesondere in Krisenzeiten. In solchen Situationen kann sich die wirtschaftliche Lage schnell und unvorhersehbar ändern, was sowohl Unternehmen als auch politische Entscheidungsträger vor große Herausforderungen stellt. Aktuelle Informationen ermöglichen es, rasch auf wirtschaftliche Veränderungen zu reagieren, gezielte Maßnahmen zu ergreifen und Risiken besser zu bewerten. Sie bieten die Grundlage für fundierte Entscheidungen, die notwendig sind, um negative Auswirkungen abzumildern und wirtschaftliche Stabilität zu fördern. Die fortschreitende Digitalisierung schafft dabei zusätzliche Möglichkeiten, um Prozesse zu optimieren und methodische Ansätze weiterzuentwickeln, wodurch die Bedeutung und Verfügbarkeit aktueller Daten noch weiter zunimmt.

Um diesen Entwicklungen Rechnung zu tragen, initiierte das Statistische Bundesamt im Sommer 2021 ein Projekt zur beschleunigten Bereitstellung von Schätzungen für konjunkturelle Indikatoren. Der Veröffentlichungszeitraum variiert je nach Wirtschaftssektor: Den Umsatz im Einzelhandel publizieren wir 30 Tage nach dem Berichtsmonat (t+30), den Umsatz im Verarbeitenden Gewerbe nach 45 Tagen (t+45), die Ergebnisse der Monatserhebung im Bauhauptgewerbe nach 55 Tagen (t+55) und die Daten der Vierteljahreserhebung im Ausbaugewerbe etwa nach 60 Tagen (t+60). Das Ziel des Projekts bestand darin, konjunkturelle Frühindikatoren innerhalb von 15 bis 20 Tagen nach Abschluss des Berichtszeitraums bereitzustellen, wodurch die Ergebnisse deutlich früher als die amtlichen Daten vorliegen.

Das Projekt konzentrierte sich auf das Verarbeitende Gewerbe und identifizierte Beschleunigungspotenziale sowohl bei der Datenerhebung als auch bei den statistischen Methoden. Auf methodischer Seite wurden Hochrechnungs-, Imputations- und auch ökonometrische Schätzverfahren (ARIMA und Dynamische Faktormodelle) sowie maschinelle Lernmethoden geprüft und weiterentwickelt. Zudem analysierten wir, inwiefern früh verfügbare externe Daten geeignet sind, um die Datengrundlage zu verbessern und Datenlücken zu schließen. Das zu entwickelnde Verfahren sollte nicht nur auf Ebene des Bundes, sondern auch für möglichst viele Bundesländer anwendbar sein und fundierte Ergebnisse liefern.

Die zugrundeliegenden Daten basieren auf dem Monatsbericht für Betriebe des Verarbeitenden Gewerbes sowie des Bergbaus und der Gewinnung von Steinen und Erden. Erfasst werden im Inland gelegene produzierende Betriebe mit 50 und mehr tätigen Personen. Die tiefste Aufbereitungseinheit bilden dabei sogenannte fachliche Betriebsteile.

Ein fachlicher Betriebsteil umfasst sämtliche Aktivitäten innerhalb eines Betriebes, die derselben Gruppe der Wirtschaftszweig­klassifikation zugeordnet werden können.

Der Zugriff auf Mikrodaten ermöglichte eine methodische Weiterentwicklung, sodass im Rahmen des Projekts schließlich ein erfolgreiches Imputationsverfahren auf Basis der Mikrodaten entwickelt wurde. Da zu diesem frühen Zeitpunkt der Schätzung ein Teil der Daten innerhalb der statistischen Ämter der Länder noch nicht plausibilisiert ist, wurde eigens dafür ein Verfahren zur Ausreißer-Erkennung entwickelt.

Die Vormonatsveränderungsrate des Umsatzes eines fachlichen Betriebsteils wurde dabei in Relation zu dessen Branchenergebnis (Wirtschaftszweig 4-Steller) gesetzt. Dadurch entstand ein Korridor, der es ermöglichte, zuvor unplausibilisiertes Material im Rahmen der Schätzung dennoch nutzbar zu machen.

Ein Bestandteil des Projekts war die wissenschaftliche Vernetzung und Begleitung. In diesem Kontext bauten wir ein internationales Netzwerk für den Erfahrungs- und Methodenaustausch auf. Darüber hinaus stellten wir das Projekt unter anderem auf dem Fachausschuss des Produzierenden Gewerbes, beim Bund-Länder-Ausschuss "Statistik" der Wirtschaftsministerien, der "Statistischen Woche" sowie der "Eurostat Business Statistics Directors Group" vor. Der Austausch mit anderen europäischen Ländern hat das große internationale Interesse an früh verfügbaren Daten verdeutlicht, was sich in der Vielzahl vergleichbarer Projekte in anderen Staaten zeigt.

Aktueller Sachstand und Methodik

Die Mikrodaten wurden über einen Zeitraum von mehr als zwei Jahren jeweils zu den Zeitpunkten t+15 sowie t+20 erhoben und ausgewertet. Dabei zeigte sich, dass zum Zeitpunkt t+20 bis zu 20 % mehr Daten plausibilisiert verfügbar sind, die Qualität sich signifikant verbessert und dadurch auch auf die interne Ausreißer-Erkennung verzichtet werden kann. Aus diesem Grund fokussieren letztlich die Arbeiten darauf, den unbereinigten Umsatz des Verarbeitenden Gewerbes zu t+20 und damit 25 Tage vor der bisherigen Veröffentlichung zu berechnen und bereitzustellen.

Dieser Frühindikator ist sowohl für externe Nutzergruppen, als auch für die amtliche Statistik von besonderem Interesse. Innerhalb der amtlichen Statistik liegen die Anwendungsbereiche vor allem in den Volkswirtschaftlichen Gesamtrechnungen, insbesondere der ersten Lageeinschätzung des Bruttoinlandsprodukts – sowohl entstehungsseitig (über die Bruttowertschöpfung) als auch verwendungsseitig (über die Investitionen).

Im Rahmen der vierteljährlichen Inlandsproduktberechnung wird bereits am 30. Tag des jeweils zweiten Monats eine Schnell­schätzung bereitgestellt. Verlässliche Daten über die Entwicklungen des dritten Monats des Quartals fehlen dabei und es müssen mit Hilfe anderer Indikatoren Prognosen getroffen werden. Verlässliche Schätzungen des Umsatzes zum Zeitpunkt t+20 würden bei diesen Berechnungen eine erhebliche Hilfe darstellen.

Ein Aufsatz im Wissenschaftsmagazin Wirtschaft und Statistik (WISTA), der in der Ausgabe 3/2025 erscheint, befasst sich mit der zugrundeliegenden aktuellen Methodik, den Ergebnissen sowie weiterführenden methodischen Ansätzen und Auswertungen. Bei gleichbleibender Qualität und der Möglichkeit, tiefergegliederte Schätzungen auf Ebene der Wirtschaftszweige (2-Steller) bereitzustellen, könnte eine Aufnahme dieses Frühindikators in die amtliche Statistik in Erwägung gezogen werden.

Eine ganze Reihe verschiedener Imputations-Ansätze wurde getestet, von denen die regressionsbasierte Imputation im Laufe der Zeit zu den durchschnittlich geringsten Abweichungen und damit der stabilsten Schätzqualität geführt hat. Die hier zugrundeliegende Imputation basiert auf dem R-Paket "mice" (Multivariate Imputation by Chained Equations – Version 3.15.0) und unterliegt einer linearen Regression. Unter dem Begriff "Imputation" werden Verfahren zusammengefasst, mit denen fehlende Daten in statistischen Erhebungen vervollständigt werden. Diese fehlenden Daten werden imputiert, sodass als Resultat eine Matrix entsteht, die sowohl aus bereits vorhandenen als auch imputierten Einzeldaten besteht und am Ende des Prozesses keine Lücken mehr aufweist.

Für den aktuellen Berichtsmonat werden alle Werte, die zum Zeitpunkt t+20 nicht plausibilisiert vorliegen, auf diese Weise imputiert. Die Datenbasis der Regressoren beginnt 2014 und wächst monatlich. Die Imputation erfolgt auf Basis der fachlichen Betriebsteile (insgesamt rund 32 000 pro Monat) und nutzt dafür ein separates Modell, bei denen jeder 2-Steller des Wirtschaftszweigs eine eigene Zielvariable darstellt. Anschließend werden die Ergebnisse über alle Wirtschaftszweige hinweg zu einem Aggregat aufsummiert. Die Schwierigkeit in der Datenlage besteht darin, dass die bereits gemeldeten Werte im aktuellen Berichtsmonat keine adäquate Stichprobe der Grundgesamtheit darstellen. Besonders die großen und heterogenen Betriebe melden tendenziell später und die vorhandenen Meldungen sind daher nicht geeignet, um als Regressor die fehlenden Werte des jeweiligen Monats optimal zu schätzen.

Regressoren des Modells

Die folgende Tabelle zeigt die Regressoren, die im Modell zur Erklärung der abhängigen Variablen verwendet werden. Diese wurden basierend auf theoretischen Überlegungen sowie empirischen Befunden ausgewählt, um einen möglichst präzisen und umfassenden Einblick in die zugrunde liegenden Zusammenhänge zu ermöglichen. Jeder Regressor repräsentiert einen spezifischen Einflussfaktor, dessen Wirkung auf die abhängige Variable im Rahmen des Modells quantifiziert wird.

Tabelle 1: Regressoren des Modells
RegressorBeschreibung
QuantileGleitende Durchschnitte des Umsatzes
(12-Monate) auf Basis fachlicher Betriebsteile (FBT) werden in Quantile eingeteilt, basierend auf einer kumulativen Verteilungsfunktion der Wirtschaftszweig (WZ) 2-Steller.
Vormonatswert der ZielvariablenAuf Basis FBT
Vorjahreswert der ZielvariablenAuf Basis FBT
Gleitende Durchschnitte Auftragseingang6-monatige Periode, skaliert zwischen 0 und 1 auf Basis FBT, ausgerichtet auf Zielvariable (Inland/Ausland)
Gleitende Durchschnitte Umsatz3-monatige Periode, skaliert zwischen 0 und 1 auf Basis FBT, ausgerichtet auf Zielvariable (Inland/Ausland)
Vormonatswert der Inlands- bzw. AuslandspreiseAuf Basis WZ 4-Steller (FBT), ausgerichtet auf Zielvariable (Inland/Ausland)
KalenderfaktorenMonatlich auf Basis WZ 4-Steller (Schwerpunkt), ausgerichtet auf Zielvariable (Inland/Ausland)
Art der EinheitEinbetriebs-/Mehrbetriebsunternehmen
BundeslandKategoriale Variable
Vormonatswert der tätigen PersonenSkaliert zwischen 0 und 1
Zeitfixierte EffekteBerichtsjahr und Berichtsmonat

Ausblick

Im "Dashboard Konjunktur" machen wir den Projektfortschritt von "t+20" fortan durch regelmäßig aktualisierte Daten allen Interessierten zugänglich. Neben den kumulierten Ergebnissen seit dem Projektstart im Juli 2022 werden auch die aktuellsten Schätzungen bereitgestellt.

Ein weiterer zentraler Aspekt der Darstellung sind Auswertungen der aktuellen Datenstruktur sowie Gütekriterien, die eine fundierte Beurteilung der Projektergebnisse ermöglichen. Diese Auswertungen aktualisieren wir ebenfalls monatlich im "Dashboard Konjunktur". Die zugrunde liegenden Parameter liefern wichtige Informationen zur Bewertung der Genauigkeit der im Rahmen des Projekts "t+20" erstellten Prognosen.

Die kontinuierliche Aktualisierung der Daten gewährleistet, dass die Informationen stets auf dem neuesten Stand sind und eine solide Grundlage für fundierte konjunkturelle Bewertungen bieten. So trägt das Projekt "t+20" zur umfassenden Betrachtung bei, indem es eine beschleunigte Bereitstellung relevanter Daten ermöglicht.