Fastly: Ein Software-Bug war schuld am Mega-Ausfall von Twitch, Amazon, Reddit und anderen

Wie Fastlys technischer Leiter Nick Rockwell gegenüber BBC bestätigt hat, hat ein einzelner Kunde den massiven Ausfall der CDN-Dienste am vergangenen Dienstag ausgelöst – allerdings schuldlos. Der Kunde hatte demnach schon Mitte Mai ein von Fastly bereitgestelltes Software-Update vollzogen. Problematisch wurde das indes erst, als er jetzt einige Einstellungen in der Software-Konfiguration geändert hatte. Damit triggerte er einen von Fastly in der Software übersehenen Bug und löste eine Kettenreaktion im CDN-Netz des Unternehmens aus. So hätte dieser eine Kunde rund 85 Prozent aller Fehlermeldungen ausgelöst, berichtet Rockwell.
Fastly will jetzt den Prozess der Qualitätssicherung verbessern, um zu verhindern, dass erneut eine fehlerbehaftete Software-Version an die Kunden ausgespielt werden kann. Zur Ehrenrettung Fastlys ist allerdings zu sagen, dass das Unternehmen die Ursache des Problems bereits 40 Minuten nach Bekanntwerden der Störung ermittelt und weitere 49 Minuten später 95 Prozent der Probleme behoben hatte.
Fastly-Ausfall: Das war passiert
„Es ist uns bekannt, dass Nutzer auf Fehlermeldungen stoßen könnten, wenn sie versuchen, Twitch aufzurufen.“ So spielte der Twitch-Support auf Twitter ein Problem fundamentalen Ausmaßes herunter.
Immerhin konnten nicht bloß einzelne Nutzer Probleme gehabt haben – die Domain twitch.tv war schlicht vollständig unerreichbar. Genauso ging es Foren-Urgestein und Wallstreetbets-Heimat Reddit. Beim Versuch, Reddit zu öffnen, wurden Nutzer weltweit mit einer Fehlermeldung konfrontiert.
Wie Tom Warren von The Verge meldete, waren ebenso Amazon und The Verge selbst betroffen. Anders als bei Twitch und Reddit betraf das Problem bei Amazon nur einzelne Leistungsteile und bei The Verge zunächst nur die eingebundenen Medien. So sah das Magazin teils recht textlastig aus. Das sah eindeutig nach dem Ausfall zentraler Teile des genutzten CDN-Dienstes aus.
Nachdem die Fehlermeldungen bei Twitch und Reddit recht eindeutig ausgefallen waren, bedurfte es keiner Spekulation, das Problem bei Fastly zu suchen. Tatsächlich hatte deren Status-Information bestätigt, dass reihenweise Server-Locations ausgefallen waren.

Europäische Fastly-Standorte um 12:30 Uhr am 8. Juni 2021. (Screenshot: Fastly/t3n)
In Europa standen zwischenzeitlich alle Örtlichkeiten auf „Degraded Performance“, was in korrekter Übersetzung „Leistung beeinträchtigt“ heißt, praktisch aber wohl einem Totalausfall gleichzusetzen war.
Über den Downdetector zeigten sich bei vielen weiteren großen Diensten ähnliche Störungsmuster. Auch bei Spotify, Twitter, Vimeo und GitHub war es im Zuge des Fastly-Ausfalls zu Problemen gekommen.

Fastly-Ausfall: Wer ist betroffen? (Screenshot: Alle Störungen/t3n)
Der Ausfall hätte noch weitaus größere Kreise ziehen können, denn der US-Anbieter setzt vornehmlich auf Großkunden. Für fast 330 große Websites, darunter auch Shopify, Buzzfeed, Slack, Business Insider, Kayak und die New York Times ist das Unternehmen essenziell.
In Großbritannien konnten Bürgerinnen und Bürger während des Ausfalls wichtige Verwaltungsleistungen, wie das Beantragen von Personalausweisen, Steuerbescheinigungen oder Führerscheinen nicht in Anspruch nehmen. Inzwischen haben weitere Online-Magazine bestätigt, betroffen gewesen zu sein. So hatte es auch CNN, den Guardian und die Financial Times erwischt. The Verge war bei seinem kurzen Totalausfall kreativ geworden und hatte den Magazin-Betrieb zeitweise zu Google Docs verlegt.
Fastly wächst während Coronakrise massiv
Fastly ist während der Coronakrise um 40 Prozent gewachsen und erbringt seine Leistungen nun für mehr als 2.000 Kunden weltweit. Ob und inwieweit die Probleme zum Teil auf das starke Wachstum zurückzuführen sind, ist unklar. Dass Fastlys starker Konzernfokus jedenfalls potenziell Probleme machen kann, hatte der Dienstleister im vergangenen Jahr selbst erkennen müssen. Da hatte sich nämlich der bis dato größte Kunde, das soziale Netzwerk Tiktok, im Zuge des Trump-Banns von Fastly als Dienstleister verabschiedet.
Mit der heutigen Panne könnte es umgekehrt den Konzernen dämmern, dass die Idee, alle großen Websites über denselben Dienstleister laufen zu lassen, nicht die Beste sein könnte.
Mit der Leitung im Artikelbild werden allerdings keine Datenströme versendet. ^^
Symbolbild …