Microsoft Azure: Einfacher Tippfehler sorgt für zehnstündigen Cloud-Ausfall
Ausfälle bei Cloud-Plattformen sind für die Nutzer:innen bestenfalls nervig, kommen aber immer wieder einmal vor. Dass der jüngste Ausfall von Microsofts Azure-Cloud aktuell Schlagzeilen macht, liegt an einer alles andere als gewöhnlichen Ursache.
Tippfehler wird für Azure Devops zum Verhängnis
Denn ein einfacher Tippfehler wurde der Azure-Devops-Plattform bei Routinearbeiten zum Verhängnis, wie der für den Bereich zuständige Microsoft-Manager Eric Mattingly in einem sogenannten Post-mortem schreibt.
Konkret sei Azure Devops in einer der Angebotsregionen Microsofts in Brasilien ausgefallen. Der Vorfall habe sich Mattingly zufolge am 24./25. Mai 2023 ereignet. Rund zehneinhalb Stunden lang war die Azure-Cloud down. Mattingly entschuldigte sich bei den betroffenen Kund:innen.
Aber wie konnte es dazu kommen? Die Azure-Devops-Entwickler:innen nehmen hin und wieder Snapshots von Datenbanken auf, um Beschwerden von Kund:innen zu prüfen oder Verbesserungsmöglichkeiten bei der Performance aufzuspüren, so Mattingly. Diese Snapshot-Datenbanken werden nach einer gewissen Zeit automatisch gelöscht.
Server statt Snapshot-Datenbanken gelöscht
Im Rahmen eines Code-Updates führte Microsoft kürzlich einen sogenannten größeren Pull-Request durch, bei dem API-Aufrufe ausgetauscht worden seien. In diesem Pull-Request befand sich der Tippfehler. Dieser führte dazu, dass statt der oben beschriebenen Snapshot-Datenbanken der gesamte SQL-Server gelöscht wurde.
Mit dem Server seien alle 17 produktiven Datenbanken gelöscht worden. Damit sei es nicht mehr möglich gewesen, den Traffic der betroffenen Kund:innen zu verarbeiten.
Das Microsoft-Team habe Mattingly zufolge den Ausfall nach 20 Minuten bemerkt und schnell auch den Grund für den Fehler gefunden. Entsprechend machte man sich an die Arbeit, den SQL-Server und alle Datenbanken wieder herzustellen und den fehlerhaften Snapshot-Bereinigungsbefehl zu deaktivieren.
Cloud erst nach zehn Stunden zum Laufen gebracht
Dass es über zehn Stunden dauerte, die Cloud wieder zum Laufen zu bringen, lag laut Mattingly an verschiedenen kleineren Problemen während des Wiederherstellungsdprozesses. So seien ältere Datenbank-Updates noch nicht auf die neuen geozonenredundanten Speichermöglichkeiten abgestimmt gewesen.
Zudem habe es mehrere Probleme mit den Webservern gegeben. Dadurch hätten Kund:innen auch dann nicht in vollem Umfang auf ihre in den betroffenen Datenbanken gespeicherten Daten zugreifen können, als die Datenbanken schon wieder online gewesen seien.
Künftig will Microsoft mit verschiedenen Schritten einen solchen Ausfall verhindern. So sollen alle Azure-SQL-Datenbanken als geozonenredundant konfiguriert werden. Zudem sollen die Snapshot-Datenbanken in Zukunft getrennt von den produktiven Datenbanken untergebracht werden.