Microsoft Azure: Einfacher Tippfehler sorgt für zehnstündigen Cloud-Ausfall

Fundstück

Microsoft Azure: Einfacher Tippfehler sorgt für zehnstündigen Cloud-Ausfall

Ein einfacher Tippfehler hat bei Microsofts Azure-Cloud-Plattform einen zehnstündigen Ausfall verursacht. Wie es zu dem Ausfall kam, warum dieser so lange dauerte und wie Ausfälle künftig ausbleiben sollen, hat Microsoft jetzt erklärt.

Von Jörn Brien

06.06.2023, 10:40 Uhr • 2 Min.

Microsoft Azure-Cloud Fehler — Vertippt: Fehler legt Microsofts Azure-Cloud lahm. (Foto: Emilija Miljkovic/Shutterstock)

Ausfälle bei Cloud-Plattformen sind für die Nutzer:innen bestenfalls nervig, kommen aber immer wieder einmal vor. Dass der jüngste Ausfall von Microsofts Azure-Cloud aktuell Schlagzeilen macht, liegt an einer alles andere als gewöhnlichen Ursache.

Tippfehler wird für Azure Devops zum Verhängnis

Denn ein einfacher Tippfehler wurde der Azure-Devops-Plattform bei Routinearbeiten zum Verhängnis, wie der für den Bereich zuständige Microsoft-Manager Eric Mattingly in einem sogenannten Post-mortem schreibt.

Empfehlungen der Redaktion

News

Google und Microsoft steuern mit Milliarden-Gewinnen auf KI-Konkurrenzkampf zu

News

ChatGPT: Wissenschaftler warnen vor Datenschutz- und Datensicherheitslücken

News

Microsoft mit Gewinneinbruch: Schwacher PC-Absatz setzt Tech-Riesen zu

Konkret sei Azure Devops in einer der Angebotsregionen Microsofts in Brasilien ausgefallen. Der Vorfall habe sich Mattingly zufolge am 24./25. Mai 2023 ereignet. Rund zehneinhalb Stunden lang war die Azure-Cloud down. Mattingly entschuldigte sich bei den betroffenen Kund:innen.

Aber wie konnte es dazu kommen? Die Azure-Devops-Entwickler:innen nehmen hin und wieder Snapshots von Datenbanken auf, um Beschwerden von Kund:innen zu prüfen oder Verbesserungsmöglichkeiten bei der Performance aufzuspüren, so Mattingly. Diese Snapshot-Datenbanken werden nach einer gewissen Zeit automatisch gelöscht.

Server statt Snapshot-Datenbanken gelöscht

Im Rahmen eines Code-Updates führte Microsoft kürzlich einen sogenannten größeren Pull-Request durch, bei dem API-Aufrufe ausgetauscht worden seien. In diesem Pull-Request befand sich der Tippfehler. Dieser führte dazu, dass statt der oben beschriebenen Snapshot-Datenbanken der gesamte SQL-Server gelöscht wurde.

Mit dem Server seien alle 17 produktiven Datenbanken gelöscht worden. Damit sei es nicht mehr möglich gewesen, den Traffic der betroffenen Kund:innen zu verarbeiten.

Das Microsoft-Team habe Mattingly zufolge den Ausfall nach 20 Minuten bemerkt und schnell auch den Grund für den Fehler gefunden. Entsprechend machte man sich an die Arbeit, den SQL-Server und alle Datenbanken wieder herzustellen und den fehlerhaften Snapshot-Bereinigungsbefehl zu deaktivieren.

Cloud erst nach zehn Stunden zum Laufen gebracht

Dass es über zehn Stunden dauerte, die Cloud wieder zum Laufen zu bringen, lag laut Mattingly an verschiedenen kleineren Problemen während des Wiederherstellungsdprozesses. So seien ältere Datenbank-Updates noch nicht auf die neuen geozonenredundanten Speichermöglichkeiten abgestimmt gewesen.

Von sinnfreien Sicherheitsfragen bis zu unsicheren Passwörtern: Die dümmsten Security-Patzer Quelle: (Foto: Wirestock Creators / Shutterstock.com)

Zudem habe es mehrere Probleme mit den Webservern gegeben. Dadurch hätten Kund:innen auch dann nicht in vollem Umfang auf ihre in den betroffenen Datenbanken gespeicherten Daten zugreifen können, als die Datenbanken schon wieder online gewesen seien.

Künftig will Microsoft mit verschiedenen Schritten einen solchen Ausfall verhindern. So sollen alle Azure-SQL-Datenbanken als geozonenredundant konfiguriert werden. Zudem sollen die Snapshot-Datenbanken in Zukunft getrennt von den produktiven Datenbanken untergebracht werden.

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Azure Cloud-Computing Devops Microsoft Server

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren