Society | Zahlen der Epidemie

Pandemic Numbers

1,755,683 Menschen sind bis heute Abend, 11.04.2020, weltweit auf den „Coronavirus“ (Sars-CoV-2) genannten Erreger positiv getestet worden.
Hinweis: Dieser Artikel ist ein Beitrag der Community und spiegelt nicht notwendigerweise die Meinung der SALTO-Redaktion wider.
48936727838_98147b1cc6_k.jpg
Foto: Christoph Scholz - flickr.com/photos/140988606@N08/48936727838 - CC BY 2.0

Der Verlust von mehr als 100.000 Menschen wird am 11.04.2020 der Epidemie zugerechnet, und Zehntausende kämpfen derzeit in den Intensivabteilungen ums Überleben. So oder ähnlich die täglichen Schlagzeilen, denen wir begegnen. Umso wichtiger: das Verständnis Aussagekraft und Grenzen solcher Zahlen.

Eine (unvollständige) Rückblende

  • 21. Februar. Es ist Italiens Schwarzer Freitag. Um 54 Minuten vor Mitternacht meldet Ansa als erste erste Agentur: "Coronavirus, ein Infizierter in der Lombardei". Es handelt sich um "Patient eins", einen 38-jährigen Mann, der wegen einer Lungenentzündung in das Krankenhaus von Codogno, im unteren Gebiet von Lodigiano, eingeliefert wurde. Im Laufe des Tages tauchten in Vo' Euganeo in der Gegend von Padua zwei weitere Fälle auf: Um 23.40 Uhr starb einer der beiden, ein 77-jähriger Mann aus Monselice. Er ist der erste, der in Italien gestorben ist.
  • 22. Februar. Ministerpräsident Conte unterzeichnet ein Dekret: Die beiden Brandherde von Lodigiano und Vo' Euganeo werden zu "roten Zonen", man darf weder hinausgehen noch hineingehen. Im Laufe des Tages erreicht die Zahl der Ansteckungen 76.
  • 23. Februar. Sechs Regionen Norditaliens, darunter auch Trentino Südtirol, schließen ihre Schulen.
  • 1. März. Conte unterzeichnet ein zweites Dekret. Unternehmen sollen ohne bürokratische Hürden Mitarbeiter im Home Office entsenden. Wenig später, am 4. März, schließen alle Schulen und Universitäten.
  • 9. März. Ganz Italien wird zur geschützten Zone deklariert. Es werden weitreichende Einschränkungen eingeführt: Versammlungsverbot; Bewegungsfreiheit nur für Arbeit, Gesundheit oder dringender Notwendigkeit mit Selbsterklärung; Einstellung der Sportveranstaltungen.
  • 11. März. Conte verkündet live im Fernsehen und auf Facebook, dass ganz Italien nun eine "rote Zone" darstellt. Der „lockdown“ ist Realität. Alle kommerziellen Aktivitäten, mit Ausnahme derer von erster Notwendigkeit, werden geschlossen. Unternehmen sind verpflichtet, Sicherheitsprotokolle einzuführen. Bürger können das Haus nur für Gesundheit, Arbeit oder notwendige Einkäufe verlassen.

Spätestens ab diesem Tag – viele von uns freiwillig schon gut zwei Wochen länger – sind wir weitgehend daheim eingesperrt.

Die Epidemie in Zahlen

Von Anfang an wird diese Epidemie auf allen Medien von täglichen Bulletins begleitet. Entwicklung der Fallzahlen, täglicher Headcount der Todesfälle, Visualisierung von exponentiellen Wachstumskurven. In einem pandemischen Szenario sind die Fachleute auf solche Informationen angewiesen. Wie schnell hat sich das Virus in China und Korea entwickelt? Was wird in wenigen Tagen auf uns zukommen? Worauf müssen wir uns vorbereiten? Wie kontrolliert man ungebremstes Wachstum der Epidemie? So oder ähnlich die täglichen Fragestellungen.

Was mich an den täglichen Presseberichten von Anfang an stört: der unreflektierte Vergleich von absoluten Zahlen unterschiedlicher Länder. Welchen Sinn hat es, die Anzahl von Todes- oder gar Fallzahlen in Österreich (knapp 9 Millionen Einwohner) mit denen Italiens (60 Millionen Einwohner) zu vergleichen - wenn wir sie nicht im Verhältnis zur jeweiligen Bevölkerung betrachten. Keines der von mir täglich besuchten Nachrichtenseiten bietet beispielsweise einen solchen Überblick. Aus der Langeweile der häuslichen Isolation heraus - und berufsbedingter Automatisierungsmöglichkeiten - entsteht darum eine schnell programmierte Datenaufbereitung für den Eigengebrauch im Freundeskreis: Charts, deren Aussagekraft ich einordnen konnte. Eine breitere Veröffentlichung derselben war zunächst nicht geplant, einfach weil bisher die Zeit für die dafür notwendigen Erklärungen fehlte – was ich nun endlich nachhole, nachdem man mich ein paarmal darauf angesprochen hat.

Rückbetrachtungen oder Prognosen?

Diese Unterscheidung ist mir ein Anliegen. Die von mir aufbereiteten Daten schauen nicht in die Zukunft, sondern stellen einzig und allein den bisherigen Verlauf der Epidemie dar. Für den Blick in die Zukunft gibt es eigene Experten, Modelle und Fachgebiete, die mit großen oder kleinen Herausforderungen aus der bisherigen Datenmenge eine vorsichtige Prognose für Morgen, Übermorgen oder gar die nächste Woche zu formulieren versuchen. Ähnliches machen andere Experten mit Finanzinstrumenten oder dem Wetterbericht. Je besser das Modell passt, und je weniger Überraschungen stattfinden, desto genauer mag die Vorhersage am Folgetag eintreten.

Die im Folgenden dargestellten Zahlen sind nichts davon. Keine Prognose, keine Was-wäre-wenn Analyse. Es sind schlicht: offiziell gemeldete Zahlen aus der Vergangenheit, in Relation zueinander gesetzt, normierter oder indiziert. Sie können uns helfen, den heutigen Stand der Epidemie einzuordnen.

Absolute Zahlen können nicht miteinander verglichen werden

Die von den jeweiligen Landesbehörden gemeldeten täglichen absoluten Fallzahlen drücken eines aus: wieviel Menschen sind in dem jeweiligen Land bis zum Tag positiv getestet worden. Täglich finden wir diese Darstellung in allen überregionalen Medien, da wird die Anzahl der Infizierten in Österreich, Italien, Spanien und Deutschland untereinander aufgelistet. Wenn man diese absoluten Zahlen aber unreflektiert miteinander vergleicht, unterliegt man mindestens drei Fehlern gleichzeitig:

  1. Jedes Land hat eine unterschiedliche Bevölkerungszahl. Man kann nicht die absoluten Zahlen der Infizierten in einem kleinen Land mit einem größeren Land vergleichen.
  2. Die Epidemie beginnt nicht in jedem Land am selben Tag. China war Italien Monate voraus. Italien ist Deutschland einige Wochen voraus. Wenn man absolute Zahlen am selben Tag miteinander vergleicht, vergleicht man zwei Fotografien eines Landes, die zu völlig unterschiedlichen Zeitpunkten in der Epidemie gemacht worden sind.
  3. Jedes Land testet Menschen nach unterschiedlichen Vorgaben, der sogenannten Teststrategie. Es existieren schlicht nicht genug Kapazitäten, um „alle Bürger“ eines Landes zu testen, so dass die Ärzte eine Entscheidung treffen müssen, wer überhaupt einen Test erhält. In einem anderen Land entscheiden die Behörden, eine andere Teststrategie zu implementieren. Diese unterschiedlichen Teststrategien führen dazu, dass in jedem Land ein unterschiedlicher Faktor für die Dunkelziffer angenommen werden muss.
    Eine hypothetische Teststrategie in einem Land wäre beispielsweise folgendermaßen formuliert: Getestet werden ausschließlich
    • Symptomatische Patienten, die hospitalisiert werden. Egal, ob ein Kontakt zu infizierter Person nachgewiesen wurde oder nicht.
    • Symptomatische Patienten in häuslicher Behandlung, aber nur wenn ein Kontakt zu infizierter Person nachgewiesen ist.
    • Mitarbeiter des Gesundheitswesens.

Normalisierte Betrachtung der Fallzahlen pro Land

Der erste hier vorgestellte Chart bearbeitet die Fallzahlen so, dass der erste und zweite Vergleichsfehler entfernt werden.

Covid-19 normalized

Zur Entkräftung des ersten Fehlers werden zunächst die Fallzahlen der Länder „normiert“, also auf eine vergleichbare Bevölkerungszahl gebracht: in meiner Darstellung auf die Bevölkerung von Italien mit 60.3 Mio Einwohner. Das bedeutet, dass beispielsweise die Fallzahlen von Österreich so multipliziert werden, dass Österreich (9 Mio Einwohner) gleich groß wie Italien wird (60 Mio Einwohner). Die Zahlen der USA (331 Mio) werden hingegen so runterdividiert, dass sie ebenfalls auf die Größe von Italien schrumpfen. Wir vergleichen also keine absoluten Zahlen mehr, sondern skalierte Zahlen. Das macht die Fallzahl der einzelnen Länder untereinander vergleichbar.

Zur Entkräftung des zweiten Fehlers wählen wir für jedes Land einen vergleichbaren Startzeitpunkt. Der Tag 1 in meiner Darstellung ist der Tag, an dem in jedem Land ca. 50-100 normierte Fallzahlen vorliegen. In Italien wählte ich/war das der 22. Februar. In anderen Ländern manchmal der 27. oder 29. Februar, wieder andere waren Anfang März soweit. Die USA hat eine normierte (also auf der Bevölkerung von Italien skalierte) Fallzahl von 79 Fällen am 7. März erreicht und findet dort ihren „Tag 1“.

Wenn wir nun den Verlauf der Epidemie mit diesen beiden Mechanismen darstellen, sind schon zwei der drei genannten Vergleichsfehler behoben: jedes Land wird in der Skalierung seiner Fälle und im Startzeitpunkt der Epidemie vergleichbar gemacht. Am Chart kann man leicht ablesen, wie sich das exponentielle Wachstum in den einzelnen Ländern entwickelt hat: Manche (Spanien, Schweiz) hatten ein mutmaßlich steileres Wachstum als Italien zu vermelden, anderen (Korea) gelang viel früher ein Abflachen der Infektionskurve.

Spannend wird die Frage sein, ob es den USA zum Beispiel gelingen wird, aus der im Augenblick ziemlich mit Italien identischen Entwicklungskurve auszubrechen.

Bitte beachten Sie, dass ein Vergleich der absoluten Zahlen der registrierten Fälle (auch wenn sie wie in diesem Fall normiert ist) durchaus irreführend sein kann: da die registrierten Fälle nicht die nicht gemeldeten/unerfassten Fälle (Dunkelziffer) berücksichtigen. Dieser Faktor ist mutmaßlich in jedem Land unterschiedlich, was auf die unterschiedlichen Testverfahren zurückzuführen ist. Nur der Vergleich der Änderungen in der Steigung der Kurve - und nicht der Gesamtzahlen der Fallzahlen - ist in diesem Diagramm abzulesen!

Korea, zum Beispiel, gelang es sehr früh das exponentielle Wachstum zu beenden und die Kurve abzuflachen. Österreich scheint dieses Kunststück um Tag 30 herum bereits markant einzuleiten - wir werden noch beobachten, ob auch definitiv oder nicht.

Die Verdoppelungszeit

Dem dritten Fehler - der unbekannte Faktor der Dunkelziffer pro Land – umgehen wir mit dieser zweiten Darstellung: Statt die absoluten Zahlen der Länder darzustellen, die eben unterschiedlichen Dunkelziffern unterliegen, stellen wir nun ausschließlich die Entwicklung der „Verdoppelungszeit“ in jedem Land dar.

COVID-19 doubling time

Eine Verdoppelungszeit ist jene Zeit, die es braucht, bis eine doppelte Menge an Fallzahlen vorliegt. Aus beispielsweise 70 Patienten werden dann 140. Dann 280, 560 usw.

Zu Beginn der verfügbaren Daten zur exponentiellen Verbreitung lag diese Verdoppelungszeit um die 2 Tage: Alle zwei Tage konnte sich also die Zahl der als infiziert getesteten Personen in einem Land verdoppeln. Wäre dies in Italien ab dem 22. Februar (im Chart der Tag 1) mit einer Verdoppelungszeit von 2 Tagen so weitergegangen, wäre die gesamte italienische Bevölkerung nach 39 Tagen (und ein paar Stunden) infiziert gewesen - dass dies zum Glück so nicht stattfand, verdankt man den Maßnahmen im Bereich der Hygiene und Isolation.

Notwendige Anmerkung: Die mathematische Berechnung einer (sehr einfach definierten) Verdoppelungszeit td stellt sich dar als td = log(2)/log(q). Den Wachstumsfaktor q errechnet man dabei ganz einfach aus dem letzten prozentuellen Wachstum. Bei beispielsweise 10% Wachstum zwischen gestern und heute wäre der Wachstumsfaktor (1 + 10/100 = 1,1), die Verdoppelungszeit log(2)/log(1.1) = 7,2 Tage. Bei 10% Wachstum pro Tag dauert es also etwas mehr als 7 Tage, bis aus einer Menge x die doppelte Menge 2x wird!

Dadurch, dass man nur mehr von „Verdoppelungszeit“ redet - also wie lange dauert es, bis aus einem x ein 2x wird - spielt die Dunkelziffer keine Rolle mehr. Sie ist mathematisch aus dem Spiel herausdividiert: Es ist zum Beispiel völlig irrelevant, ob in Österreich die Dunkelziffer vielleicht 4, in Italien vielleicht 20 ist. Der Faktor der Dunkelziffer bleibt in einem einzelnen Land im Prinzip konstant (solange die Teststrategie nicht abrupt geändert wird, was zwar vorkommen kann, aber nicht täglich und nicht systematisch) und kürzt sich bei der Berechnung des prozentuellen Wachstumes (von gestern auf heute) im Prinzip einfach raus, weil die Dunkelziffer im Zähler und im Nenner bei der Berechnung des Wachstums p steht.

Die Berechnung auf der Basis der gestrigen Wachstumsrate ist dabei nur ein erster, völlig simpler, Ansatz. Ganze Aufsätze könnten an dieser Stelle über Verdoppelungszeiten (oder, für die Nuklearphysiker: auch Halbwertszeiten) geschrieben werden - besonders bei lebendigen Organismen müssen die Wachstumsprozesse komplexer beschrieben werden als nur durch Betrachtung des „gestrigen“ prozentuellen Wachstum. Die Ermittlung der Verdoppelungszeit fußt in diesen Fällen dann auf komplexere Verfahren.

Für unsere Darstellungsform des Wachstums hier nehmen wir aber – so wie es die großen überregionalen Medien auch tun – tatsächlich nur diese einfache Art der Verdoppelungszeit, und wenden noch eine Glättung vor: Statt des „einfachen“ gestrigen Wachstums lassen wir den Mittelwert des Wachstums der letzten sechs Tage in die Rechnung einfließen. Das Ergebnis ist im Chart dargestellt.

Je größer die Verdoppelungszeit, desto länger braucht das Virus, um die doppelten Fallzahlen zu erreichen, desto stärker ist die Verbreitung gebremst. Stillstand herrscht dann, wenn die Verdoppelungszeit „unendlich“ ist. In Korea haben wir aktuell eine so berechnete Verdoppelungszeit von ungefähr 177 Tagen, in China von über einem Jahr.

Während Italien, Österreich und mittlerweile auch die Schweiz bereits Verdoppelungszeiten von über 20 Tagen erreicht haben, befinden sich die USA, Großbritannien und auch Irland noch im „schnellen“ Wachstumsbereich von unter 10 Tagen.

Neufälle / Gesamtfälle

Der letzten Chart, den ich zum Vergleich der Länder bieten kann, ermöglicht es, einen greifbaren Eindruck der epidemischen Entwicklung zu gewinnen, indem alle drei Effekte herausgerechnet werden und das Geschehen auf einer logarithmischen Skala dargestellt wird - so dass eine etwaige Bremse im exponentiellen Wachstum für exponentiell Ungeübte schneller sichtbar wird.
COVID-19 normalized  averaged timeseries

Diese Grafik zeigt die neuen bestätigten Fälle (nx_avg) von Covid-19 im Vergleich zu den bisher insgesamt bestätigten Fällen (tx), normalisiert auf eine identische Population von 60,3 Millionen, beide auf logarithmischen Skalen. Die neuen Fälle basieren auf einem gleitenden arithmetischen Sieben-Tage-Durchschnitt.

Auch hier ist die Dunkelziffer im Zähler und im Nenner enthalten, und spielt damit mathematisch keine Rolle mehr. Weiters wird in dieser Darstellung das exponentielle Wachstum als eine nach oben ansteigende Gerade dargestellt. Beachten Sie dabei, dass fast alle Länder einen sehr ähnlichen Pfad des exponentiellen Wachstums verfolgen.

Weitere Einzelheiten und ein interaktives Diagramm zu diesem Visualisierungsansatz finden Sie unter aatishb.com/covidtrends, der Inspiration für diesen Chart war und mit den Leuten von Minute Physics in einem Erklärvideo https://youtu.be/54XLXg4fYsc  das zugrundeliegende Modell beschreibt.

Südtirol im Überblick

Der letzte Chart entstand durch die Zusammenarbeit einiger Twitter-User im Lande, die meine Charts verfolgten. Jemand machte sich die Mühe, die täglichen Pressemeldungen des Landes automatisiert in Daten umzuwandeln und diese maschinenlesbar bereitzustellen, ein anderer baute eine API dafür, so dass auch ein Südtirol Chart der wichtigsten Kennzahlen möglich war.

COVID-19 südtirol

Die Kennzahlen kennen Sie aus den täglichen Medien, wir stellen die positiv Getesteten (postiveTested), die Neufälle (newPositiveTested), die Geheilten (cured) und Verstorbenen (deceased) dar. Besonders in kleinen Realitäten wir Südtirol ist es notwendig, auch die wechselhafte Anzahl der Tests pro Tag (newNumberTests) und der neu getesteten Personen (newNumberTestedPeople) zu betrachten, wenn man die Neufälle bewertet.

Aus diesem Grund finden Sie, in grün strichliert, die Entwicklung der Neufälle pro neu getestete Personen dargestellt, es wird ein gleitender Durchschnitt über vier Tage angewendet. So dargestellt, erkennt man beispielsweise seit seinem Höchststand in der letzten Märzwoche ein relatives Zurückgehen der Prozentzahl der Neufälle zu den Neu getesteten Personen, die aktuell in der Größenordnung von zuletzt 11% der neu getesteten Personen liegt.

Inzidenz (Nachtrag)

Im Laufe der Phase2, also der Lockerungen in den vorgeschriebenen Lockdown-Regeln, wird eine Kennzahl relevant: die Inzidenz pro Woche und 100.000 Einwohner. In der Bundesrepublik Deutschland wurde eine Vorgabe von einer Inzidenz von max. 50 gegeben, um die Lockerungen in einem Landkreis aufrecht zu erhalten. Sobald die Inzidenz über 50 steigt, muss der jeweilige Landkreis zurück in den Lockdown Modus. Manchen Bundesländern, so beispielsweise Berlin und Bayern, war die Zahl viel zu hoch angesetzt, sie haben dann lokal Wert von 35 und 30 angesetzt.


COVID-19 normalized  averaged timeseries

 

 

Updates und Datenmaterial

Sämtliche Charts, Updates und Datenmaterial (datasets) werden regelmäßig aktualisiert und liegen Interessierten hier offen verfügbar.

https://github.com/christophmoar/covid-19

Quellen

Solange es keine offizielle Quelle (open data) für die Zahlen der Autonomen Provinz Bozen gibt, stellen freundliche Helfer hier automatisch gescraptes (ausgelesenes) Material bereit.

https://github.com/abaumg/covid19-bz-scraper

https://github.com/ivansieder/corona-bz-api

Die offiziellen Daten aus Italien sind jeden Tag ab 18h (Termin der Pressekonferenz der Zivilschutzbehörde) hier verfügbar.

https://github.com/pcm-dpc/COVID-19

Weltweites Material stellt das Johns Hopkins University Center for Systems Science and Engineering (JHU CSSE) ständig bereit.

https://github.com/CSSEGISandData/COVID-19

In Echtzeit aufbereitete Daten der COVID-19 Epidemie, jeweils aus offiziellen und verifizierten Quellen entnommen, stellt folgende Webseite tabellarisch zur Verfügung.

https://www.worldometers.info/coronavirus/

Anmerkung

Die  Beispielzahlen im Artikel basieren auf den Datenstand vom 11.04.2020 abends. Die Charts werden sich hingegen innerhalb dieses Artikels - und auch über die angegebenen externen Links - im Verlauf der Epidemie automatisch auf den jeweils aktuellen Stand updaten, solange das Projekt und die Datasets von mir betreut werden.