Amazon hat sich bei seinen Kunden für die Störungen seiner Cloud-Infrastruktur entschuldigt. Verantwortlich für den Ausfall der Server, die zu Amazons S3-Service gehörten, sei ein Tippfehler gewesen.

Tippfehler sorgte für AWS-Störung

Ein Tippfehler, und das halbe Internet ist lahmgelegt. So einfach klingt die Erklärung Amazons für die Störung seines Cloud-Dienstes AWS am Dienstagabend. Fehler im Simple-Storage-Service (S3) hatten dafür gesorgt, dass populäre Dienste wie Slack, Trello, Quora, Business Insider, Coursera und IFTTT über Stunden nicht oder fehlerhaft funktionierten.

AWS-Infrastruktur: Probleme bereitete die Region USA Ost, Northern Virginia (5). (Screenshot: Amazon/t3n)

In einer Mitteilung an die S3-Kunden beschreibt Amazon den genauen Vorgang, der zu den Problemen geführt habe. Demnach hätten Mitglieder des S3-Teams Fehler im Abrechnungssystem ausbessern wollen. Dazu hätten sie einige Server vom Netz nehmen müssen. „Unglücklicherweise war eine der Eingaben nicht korrekt, und es wurden mehr Server abgeschaltet als beabsichtigt“, schreibt Amazon. Die unbeabsichtigt offline genommenen Server seien für zwei weitere S3-Untersysteme verantwortlich gewesen.

Diese Systeme sind Amazon zufolge wichtig für das Management von Metadaten und ortsbasierte Informationen aller S3-Objekte in der Region. Ohne diese Server hätten keine grundlegenden Abrufe von Daten und Speicheraufgaben mehr ausgeführt werden können. Die Server hätten also wieder hochgefahren werden müssen, was sehr zeitintensiv sei. In einer Kettenreaktion stoppten laut Amazon durch den Ausfall weitere Dienste wie die Elastic Compute Cloud (EC2), die vor allem von speicherintensiven Diensten genutzt wird.

AWS-Störung: Langsamer Neustart der S3-Server

Weniger den Ausfall als vielmehr den Neustart der Server macht Amazon im Nachhinein für die Störung des Cloud-Dienstes verantwortlich, räumt aber ein, dass auch das massive Wachstum der S3-Dienste in den vergangenen Jahren einen Teil der Schuld trüge. Amazon will jetzt an den S3-Systemen arbeiten, um solche Neustarts künftig deutlich zu beschleunigen. Zudem sollen Programmierer künftig keine Möglichkeit mehr haben, S3-Kapazitäten vom Netz zu nehmen, wenn damit eine bestimmte Untergrenze der Versorgung unterschritten werde.

Auch das AWS-Health-Dashboard soll überarbeitet werden. Dort zeigten sich während der Störung nur grüne Lampen – auch die Fehlerseite hing an den S3-Servern. Die vergleichsweise umfangreiche Störung von Amazons Cloud-Diensten am Dienstag war nach rund vier Stunden wieder behoben, alle Dienste funktionierten danach wieder weitgehend normal.

