Anzeige
Anzeige
Fundstück

Microsoft Azure: Einfacher Tippfehler sorgt für zehnstündigen Cloud-Ausfall

Ein einfacher Tippfehler hat bei Microsofts Azure-Cloud-Plattform einen zehnstündigen Ausfall verursacht. Wie es zu dem Ausfall kam, warum dieser so lange dauerte und wie Ausfälle künftig ausbleiben sollen, hat Microsoft jetzt erklärt.

2 Min.
Artikel merken
Anzeige
Anzeige

Vertippt: Fehler legt Microsofts Azure-Cloud lahm. (Foto: Emilija Miljkovic/Shutterstock)

Ausfälle bei Cloud-Plattformen sind für die Nutzer:innen bestenfalls nervig, kommen aber immer wieder einmal vor. Dass der jüngste Ausfall von Microsofts Azure-Cloud aktuell Schlagzeilen macht, liegt an einer alles andere als gewöhnlichen Ursache.

Anzeige
Anzeige

Tippfehler wird für Azure Devops zum Verhängnis

Denn ein einfacher Tippfehler wurde der Azure-Devops-Plattform bei Routinearbeiten zum Verhängnis, wie der für den Bereich zuständige Microsoft-Manager Eric Mattingly in einem sogenannten Post-mortem schreibt.

Konkret sei Azure Devops in einer der Angebotsregionen Microsofts in Brasilien ausgefallen. Der Vorfall habe sich Mattingly zufolge am 24./25. Mai 2023 ereignet. Rund zehneinhalb Stunden lang war die Azure-Cloud down. Mattingly entschuldigte sich bei den betroffenen Kund:innen.

Anzeige
Anzeige

Aber wie konnte es dazu kommen? Die Azure-Devops-Entwickler:innen nehmen hin und wieder Snapshots von Datenbanken auf, um Beschwerden von Kund:innen zu prüfen oder Verbesserungsmöglichkeiten bei der Performance aufzuspüren, so Mattingly. Diese Snapshot-Datenbanken werden nach einer gewissen Zeit automatisch gelöscht.

Server statt Snapshot-Datenbanken gelöscht

Im Rahmen eines Code-Updates führte Microsoft kürzlich einen sogenannten größeren Pull-Request durch, bei dem API-Aufrufe ausgetauscht worden seien. In diesem Pull-Request befand sich der Tippfehler. Dieser führte dazu, dass statt der oben beschriebenen Snapshot-Datenbanken der gesamte SQL-Server gelöscht wurde.

Anzeige
Anzeige

Mit dem Server seien alle 17 produktiven Datenbanken gelöscht worden. Damit sei es nicht mehr möglich gewesen, den Traffic der betroffenen Kund:innen zu verarbeiten.

Das Microsoft-Team habe Mattingly zufolge den Ausfall nach 20 Minuten bemerkt und schnell auch den Grund für den Fehler gefunden. Entsprechend machte man sich an die Arbeit, den SQL-Server und alle Datenbanken wieder herzustellen und den fehlerhaften Snapshot-Bereinigungsbefehl zu deaktivieren.

Anzeige
Anzeige

Cloud erst nach zehn Stunden zum Laufen gebracht

Dass es über zehn Stunden dauerte, die Cloud wieder zum Laufen zu bringen, lag laut Mattingly an verschiedenen kleineren Problemen während des Wiederherstellungsdprozesses. So seien ältere Datenbank-Updates noch nicht auf die neuen geozonenredundanten Speichermöglichkeiten abgestimmt gewesen.

Von sinnfreien Sicherheitsfragen bis zu unsicheren Passwörtern: Die dümmsten Security-Patzer Quelle: (Foto: Wirestock Creators / Shutterstock.com)

Zudem habe es mehrere Probleme mit den Webservern gegeben. Dadurch hätten Kund:innen auch dann nicht in vollem Umfang auf ihre in den betroffenen Datenbanken gespeicherten Daten zugreifen können, als die Datenbanken schon wieder online gewesen seien.

Künftig will Microsoft mit verschiedenen Schritten einen solchen Ausfall verhindern. So sollen alle Azure-SQL-Datenbanken als geozonenredundant konfiguriert werden. Zudem sollen die Snapshot-Datenbanken in Zukunft getrennt von den produktiven Datenbanken untergebracht werden.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige