Blog

Microsoft-IT-Ausfall 2024: Lehren für Business Continuity mit Philippe Tassé-Gagné, Vice President Consulting Services

veröffentlicht:
12/16/2025
Aktualisiert:
12/15/2025
ParaSolution interface on desktop and mobile, followed by BCI Awards, Emotional Footprint, and Gartner Magic Quadrant badges
Entdecken Sie unsere preisgekrönte BCM-Software

Am 19. Juli 2024 löste ein fehlerhaftes CrowdStrike-Update einen weltweiten Ausfall von Microsoft-Diensten aus, der Millionen von Nutzerinnen und Nutzern betraf und zahlreiche Branchen erheblich störte.

Angesichts dieser beispiellosen Situation rückte das Business Continuity Management für Unternehmen jeder Größe in den Mittelpunkt.

Um die Herausforderungen und möglichen Lösungsansätze besser zu verstehen, haben wir Philippe Tassé-Gagné, Vice President of Consulting Services bei Premier Continuum, interviewt und ein sehr spannendes Gespräch geführt. Herr Tassé-Gagné ist ein anerkannter Experte für Business Continuity und organisationale Resilienz mit über 25 Jahren Erfahrung. Zudem wurde er bei den BCI Americas Awards 2024 mit dem Titel Continuity and Resilience Consultant 2024 ausgezeichnet.

Viel Freude beim Lesen!

1. Philippe, könnten Sie kurz erklären, was während des Microsoft-Ausfalls im Juli 2024 passiert ist?

Gerne. Am 19. Juli 2024 führte ein Update der Cybersicherheitssoftware CrowdStrike bei vielen Windows-Geräten zu sogenannten Blue-Screen-of-Death-Fehlern (BSOD). Davon waren mehr als 8,5 Millionen Geräte betroffen.

Why the Blue Screen of Death Still Matters in a World of IT Chaos
Beispiel für einen „Blue Screen“-Fehler

Dieses Update verursachte erhebliche Unterbrechungen der Microsoft-365-Dienste und beeinträchtigte kritische Anwendungen wie Outlook, Teams und OneDrive. Der Ausfall hatte globale Auswirkungen und störte zentrale Sektoren wie Transport, soziale und gesundheitliche Dienste, Finanzdienstleistungen und viele weitere.

Auf persönlicher Ebene hat mich besonders überrascht, dass an diesem Morgen sogar das Radio nicht funktionierte. Wenn alles schiefgeht, ist selbst die Quelle, die wir für am zuverlässigsten halten, plötzlich nicht mehr verfügbar.

2. Philippe, mussten Sie jemals einen ähnlichen Vorfall managen oder Ihre Kundinnen und Kunden dabei unterstützen?

Abgesehen von der COVID-19-Pandemie musste ich in meiner 28-jährigen Laufbahn keinen Vorfall dieses Ausmaßes managen.

Das erinnert mich an ein bekanntes Sprichwort: „Wir sind immer auf den letzten Vorfall vorbereitet, den wir erlebt haben.“

Als COVID-19 ausbrach, griffen viele Organisationen auf ihre bestehenden Kontinuitäts- und Krisenmanagementpläne zurück, die wiederum auf dem letzten vergleichbaren Großereignis basierten – in diesem Fall der H1N1-Grippe von 2009. Entsprechend waren die Protokolle mehr oder weniger auf COVID-19 angepasst, eigneten sich jedoch nicht unbedingt für andere Arten von Störungen, insbesondere solche mit starkem Personalbezug.

Die zentrale Erkenntnis daraus ist folgende: Wie viele Organisationen nehmen sich wirklich die Zeit, nach einer Krise ein strukturiertes Debriefing durchzuführen, Daten und Informationen zu sammeln und ihre Pläne sowie Verfahren auf Basis ähnlicher Szenarien zu aktualisieren? Nicht viele Unternehmen – obwohl genau das von entscheidender Bedeutung ist.

3. Warum waren die Auswirkungen des CrowdStrike-Vorfalls Ihrer Meinung nach so weitreichend?

Viele Organisationen haben ihre Abhängigkeit von Microsoft in den letzten Jahren deutlich erhöht. Auch wenn das Risiko von Dienst- oder Tool-Ausfällen grundsätzlich gering erscheint, müssen wir anerkennen, dass die Auswirkungen im Ernstfall katastrophal sein können.

Viele Organisationen haben ihre Abhängigkeit von Microsoft in den letzten Jahren deutlich erhöht. Auch wenn das Risiko von Dienst- oder Tool-Ausfällen grundsätzlich gering erscheint, müssen wir anerkennen, dass die Auswirkungen im Ernstfall katastrophal sein können.

Wir werden zunehmend abhängig von multinationalen Unternehmen, insbesondere von Marktführern wie Microsoft. Meiner Meinung nach wird ein solcher Ausfall viele Organisationen aufrütteln und insbesondere die am stärksten betroffenen dazu bringen, sich zu fragen, ob es sinnvoll ist, alternative Lösungen zu implementieren – und zu welchem Preis. Die Realität ist jedoch: Die Alternativen sind begrenzt.

Nehmen wir zum Beispiel Delta Air Lines, die angekündigt haben, CrowdStrike wegen der entstandenen Verluste zu verklagen. Zahlreiche Flüge mussten verspätet durchgeführt oder ganz gestrichen werden. Der wirtschaftliche Schaden ist nachvollziehbar, doch daraus ergibt sich eine fast widersprüchliche Frage: An welchen anderen Anbieter könnten sie sich wenden?

Delta wird sehr wahrscheinlich weiterhin mit Microsoft zusammenarbeiten, da Microsoft ein zentraler Bestandteil ihrer operativen Prozesse ist. Microsoft wiederum wird vermutlich auch weiterhin mit CrowdStrike kooperieren, angesichts der Robustheit und des guten Rufs ihrer Cybersicherheitslösungen. Selbst wenn Delta also CrowdStrike verklagt, bleibt das Unternehmen indirekt über Microsoft mit ihnen verbunden.

Dieses Beispiel verdeutlicht die Komplexität und enge Vernetzung heutiger technologischer Ökosysteme, in denen Wahlmöglichkeiten begrenzt sind und gegenseitige Abhängigkeiten kaum zu vermeiden sind.

Quelle: CNBC, „Delta hires David Boies to seek damages from CrowdStrike, Microsoft after outage“, veröffentlicht am 29. Juli 2024, https://www.cnbc.com/2024/07/29/delta-hires-david-boies-to-seek-damages-from-crowdstrike-microsoft-.html

4. Was sollten Organisationen nach dem CrowdStrike-Vorfall oder dem Ausfall der Microsoft-Azure-Dienste tun?

Eine zentrale Erkenntnis ist, sich des blinden Vertrauens bewusst zu werden, das wir großen multinationalen Anbietern entgegenbringen. Auf Kundenseite wurde das CrowdStrike-Update automatisch heruntergeladen und nicht zwingend vor der Installation von den Organisationen getestet.

Dieses Ereignis sollte Unternehmen klar dazu anregen, effizienter und wachsamer mit dem Update-Management kritischer Systeme umzugehen. Einige Organisationen haben das CrowdStrike-Update vor der Installation getestet und konnten dadurch Auswirkungen auf ihren Betrieb vermeiden. In diesem Sinne sollten insbesondere große Organisationen Updates – wann immer möglich – evaluieren oder zumindest testen, bevor sie diese produktiv einspielen.

Natürlich können kleine und mittlere Unternehmen nicht jedes einzelne Update im Detail prüfen. Dennoch ist es sinnvoll, regelmäßig die eigenen Systeme und Abhängigkeiten zu überprüfen, um Risiken neu zu bewerten. Auch wenn die Eintrittswahrscheinlichkeit solcher Ereignisse als relativ gering eingeschätzt wird, dürfen wir nicht vergessen, dass unsere Systeme zunehmend miteinander verflochten und voneinander abhängig sind.

Weitere Informationen zum Ausfall der Microsoft-Azure-Dienste finden Sie in diesem Artikel.

5. Wie kann der Aufbau organisationaler Resilienz Unternehmen dabei helfen, mit dieser Art von Störung umzugehen?

Organisationale Resilienz bezeichnet die Fähigkeit einer Organisation, Schocks abzufedern und sich an ein sich veränderndes Umfeld anzupassen. Der gezielte Aufbau dieser Fähigkeit hilft Unternehmen insbesondere dabei, ihre Cyberresilienz zu stärken und sich besser auf technologische Ausfälle vorzubereiten.

Der CrowdStrike-Vorfall hat deutlich gemacht, wie verwundbar Organisationen gegenüber Cyberbedrohungen geworden sind. Während der Krise war disziplinierte Wachsamkeit entscheidend, da eine Sicherheitslücke für Cyberkriminelle eine ideale Gelegenheit darstellt. Die Stärkung der organisationalen Resilienz ermöglicht es Unternehmen, aufmerksam zu bleiben und im Störungsfall schnell und koordiniert zu reagieren.

Darüber hinaus werden im Rahmen der Resilienzarbeit Backups, Wiederherstellungsstrategien und Notlösungen für prioritäre Aktivitäten oder kritische Geschäftsservices definiert. Organisationen erhalten so die Möglichkeit, ihre kritischen Infrastrukturen neu zu bewerten. Konkret bedeutet das, sich folgende Frage zu stellen:
„Habe ich letztlich Single Points of Failure, die ich bisher nicht erkannt oder als nicht relevant eingeschätzt habe?“

Es gibt nicht immer sofort eine Lösung. Doch allein die Erkenntnis, dass solche IT-Ausfälle wahrscheinlicher sind als gedacht, ermöglicht es Continuity- und Resilienz-Teams, sichere Workarounds zu entwickeln, um vergleichbare Situationen in Zukunft besser zu bewältigen.

6. Wie können wir unsere Vorbereitung auf einen IT-Ausfall dieses Ausmaßes verbessern?

Meiner Ansicht nach basiert Vorbereitung vor allem auf Sensibilisierung, Schulung sowie der Durchführung von Kontinuitäts- und Resilienzübungen. Es muss sichergestellt werden, dass alle Mitglieder der Organisation ihre Rolle in einer Krise verstehen. Gleichzeitig ist es entscheidend, die Kompetenzen des Krisenmanagementteams durch kontinuierliche Schulungen und regelmäßige Übungen gezielt weiterzuentwickeln.

Ein Beispiel, das ich gerne anführe, ist folgendes: Sowohl in IT-Wiederherstellungsplänen als auch bei Cyberübungen ist es wichtig, die Art des Cybervorfalls klar zu definieren. Handelt es sich um einen Cyberangriff – oder um einen Verlust des Systemzugangs?

Beide Szenarien können die primären Kommunikationsmittel einer Organisation beeinträchtigen, doch sie lassen sich keinesfalls auf dieselbe Weise managen. Deshalb ist es unerlässlich, parallele Maßnahmen und Strategien für eine angemessene Reaktion zu entwickeln und deren Umsetzung regelmäßig mit dem Krisenmanagementteam zu trainieren.

Heutzutage ist die Vorbereitung auf einen Cyberangriff eine bewährte Praxis. Es handelt sich dabei mit Abstand um das wahrscheinlichste Risiko bzw. die wahrscheinlichste Bedrohung, mit der Organisationen konfrontiert sind.

7. Glauben Sie, dass dieser Microsoft-IT-Ausfall künftig zu einer Fallstudie werden wird?

Der durch CrowdStrike verursachte Microsoft-Ausfall ist ein IT-Vorfall, und der IT-Sektor passt sich in der Regel besser an als viele andere Branchen. Dennoch wäre es nicht überraschend, wenn die aus diesem Ereignis gewonnenen Erkenntnisse schnell zu Best Practices werden.

Ich hoffe sehr, dass Organisationen nach diesem Vorfall mehr Zeit investieren, um Updates vor der Installation zu überprüfen. Gleichzeitig möchte ich betonen, dass dies keine einfache Aufgabe ist. Es erfordert gut strukturierte Systeme und geeignete Werkzeuge, über die nicht alle Unternehmen verfügen. Viele Organisationen arbeiten zudem mit veralteten Systemen und sind dadurch besonders anfällig für solche Ereignisse. Meiner Meinung nach sollten diese Organisationen – ebenso wie Anbieter essenzieller Dienstleistungen wie Gesundheitswesen oder Transport – besonders vorsichtig sein.

Kurzfristig empfehle ich allen Organisationen, die Auswirkungen dieses Vorfalls sowie dessen Bewältigung systematisch zu dokumentieren. Durch die Analyse dieser Informationen lassen sich klare Verbesserungsmöglichkeiten für zukünftige Krisen identifizieren. Anders gesagt: Es ist entscheidend, aus Fehlern zu lernen, um die Resilienz zu stärken und Business-Continuity-Pläne weiterzuentwickeln, damit Organisationen besser auf künftige Störungen vorbereitet sind.

Um weiterzugehen …

Damit schließen wir unser Interview mit Philippe Tassé-Gagné, Vice President of Consulting Services and Talent Development bei Premier Continuum.

Wir danken Herrn Tassé-Gagné herzlich dafür, dass er seine Einblicke und seine Expertise zu diesem Thema mit uns geteilt hat.

Um mehr über diesen IT-Ausfall zu erfahren, laden wir Sie ein, unseren Artikel zu lesen: Vorfall vom 19. Juli 2024: Wenn ein Update globale Auswirkungen hat.

Für weitere Informationen zu Business Continuity Management und organisationaler Resilienz wenden Sie sich gerne direkt an unser Expertenteam.

Für dich empfohlen