Anzeige
Anzeige
News
Artikel merken

Facebookdown durch Software-Bug und menschliches Versagen verursacht

Der massive Ausfall aller Facebook-Dienste am Montagabend ist auf zwei Fehler zurückzuführen. Ein Techniker hat mit einem simplen Befehl das Backbone-Netz abgeschaltet, eine Software hat es nicht verhindert.

4 Min. Lesezeit
Anzeige
Anzeige
Nur so konnte #Facebookdown behoben werden – persönlich. (Foto: Alexandru Chiriac / Shutterstock)

Facebook-Manager Santosh Janardhan ist zuständig für die technische Infrastruktur der Plattform. In einem ausführlichen Blogbeitrag erläutert er, was zu dem sechsstündigen Ausfall von Whatsapp, Facebook und Instagram geführt hat. Spoiler: Es war eine Kombination aus einem menschlichen Versagen und einem Software-Bug.

Learning: Facebooks Backbone-Netz dürfte überarbeitet werden

Anzeige
Anzeige

Die Geschichte des größten Dienstausfalls der jüngeren Geschichte ist eigentlich ganz einfach zu erzählen. Dazu müssen wir uns anschauen, wie das Facebook-Netzwerk aufgebaut ist. Es besteht laut Janardhan „aus Zehntausenden von Kilometern Glasfaserkabel, die den gesamten Globus durchziehen und alle unsere Rechenzentren miteinander verbinden.“

Diese Datenzentren gebe es wiederum in verschiedenen Formen. Manchen seien riesige Gebäude mit „Millionen von Rechnern“, andere seien eher kleine Einheiten, deren Aufgabe im Wesentlichen darin bestünde, das Facebook-Backbone-Netz mit dem breiteren Internet und den Nutzern der verschiedenen Plattformen des Unternehmens zu verbinden.

Anzeige
Anzeige

Dabei seien die Apps so konzipiert, dass sie sich bei der Datenanforderung an die physikalisch nächstgelegene Facebook-Einheit wenden. Die löst die Domainnamen auf und kümmert sich über das Backbone-Netz darum, eine Antwort aus einem der verarbeitenden Datenzentren zu erhalten und den Nutzenden zurückzumelden.

Anzeige
Anzeige

Unzulässiger Befehl wird nicht gestoppt, legt Backbone lahm

Der Datenverkehr zwischen all diesen Rechenzentren werde wiederum von Routern verwaltet, die dafür sorgen, dass alle ein- und ausgehenden Daten an die richtigen Stellen gesendet werden. Ebendiese Router müssten zu Wartungszwecken immer mal wieder abgeschaltet werden, um etwa ihre Software zu aktualisieren.

Genau an dieser Stelle nahm der Ausfall seinen Lauf. Während einer Routine-Wartung hatte ein Techniker einen Befehl erteilt, der die Verfügbarkeit der globalen Backbone-Kapazität hätte prüfen sollen. Da dazu die zu prüfenden Verbindungen unterbrochen werden müssen, hätte das Prüfwerkzeug den Befehl nicht zur Ausführung freigeben dürfen, was es aber doch tat. Und so machte sich ein Befehl, der in dieser Form niemals hätte erteilt werden dürfen, auf seinen unheilvollen Weg durch das Facebook-Backbone-Netz.

Anzeige
Anzeige

Dezentrales DNS führt zu völliger Unerreichbarkeit

Innerhalb weniger Minuten hatte sich das Facebook-Backbone mit seiner Vielzahl an kleinen Datenverarbeitungseinrichtungen komplett vom Internet entkoppelt, was nicht das schlimmste Problem gewesen wäre, wenn die Technik nicht ebendiese kleinen Einheiten zur DNS-Auflösung verwenden würde.

Das DNS, das Domain-Name-System, ist ein zentraler Pfeiler des Internets. Es kümmert sich um die Übersetzung der menschenlesbaren Eingabe www.facebook.com in eine maschinenlesbare IP-Adresse, indem es Tabellen führt, die die beiden Datenfelder miteinander verknüpfen. Damit fungiert es als Übersetzer, ohne den eine Verständigung nicht möglich ist.

Nun ist das DNS in den kleinen Einheiten des Facebook-Backbones so konzipiert, dass es sich selbst respektive seine sogenannten BGP-Routen, also die eingetragenen Wege zum Rechenzentrum, deaktiviert, wenn es seine eigenen Rechenzentren nicht mehr erreichen kann. Das ist absichtlich so angelegt, weil die Nichterreichbarkeit typischerweise eine schlechte Netzverbindung signalisiert und Facebook so erzwingt, dass sich eine andere Einheit mit besserer Anbindung um die Auflösung kümmert.

Anzeige
Anzeige

Jetzt aber war keine andere Einheit mehr verfügbar. Deshalb lief die Namensauflösung komplett ins Leere. Obwohl die DNS-Server in den dahinterliegenden Rechenzentren voll funktionsfähig blieben, konnten sie von außen nicht mehr erreicht werden. Zugleich konnten jedoch auch die kleineren Einheiten nicht mehr erreicht werden, weil sie sich schlicht selbst abgeschaltet hatten.

Jetzt hilft nur noch der Techniker vor Ort

Wir können uns das in etwa so vorstellen: Wir wählen uns über das Internet in unsere heimische Fritzbox ein, um eine Konfigurationsänderung vorzunehmen. Das tun wir auch, machen dabei aber einen Fehler, der die Fritzbox abschießt. Jetzt kann keiner aus dem Heimnetz mehr ins Internet und wir können nicht mehr aus der Ferne auf die Fritzbox. Wir müssen also hin und das Problem direkt an der Box lösen. Das beschreibt die Situation bei Facebook ganz gut.

Facebooks Techniker waren also von der Nutzung spezieller Tools, die den Fehler an sich hätten beheben können, ausgeschlossen und ein Remote-Zugriff war ebenfalls nicht mehr möglich. Die Lösung: Techniker müssen das Problem vor Ort angehen.

Anzeige
Anzeige

Konsequenterweise schickte das Unternehmen Techniker in die Rechenzentren, was in Pandemiezeiten schon logistisch eine Herausforderung ist und jedenfalls seine Zeit benötigt. Die Techniker sollten im Wesentlichen die Systeme neu starten, musste aber zunächst das Problem lösen, wie sie sich überhaupt Zugang zu den Einrichtungen verschaffen können. Denn Facebook hat physische Sicherheit und Systemsicherheit in den Datenzentren so ausgelegt, dass der Zutritt schwierig ist und die Änderung der Systeme noch mal schwieriger.

Kaum macht man’s richtig, geht’s

Als das gelungen war, konnten die Techniker das Backbone relativ umstandsfrei wieder in Betrieb nehmen. Zu beachten gab es lediglich noch den Umstand, dass wegen der zu erwartenden Stromaufnahme nicht das gesamte Backbone auf einen Schlag hochfahren durfte. Solche Szenarien würden indes ständig geübt, so Janardhan. Den Ausfall des Backbones hatte Facebooks Technik indes bislang nie geprobt. Das soll sich jetzt ändern.

Grundlegend vereinfachen will Janardhan den Backbone-Zugriff dabei aber nicht. Zwar sei „interessant“ gewesen, zu sehen, wie Facebooks Sicherheitsmaßnahmen „uns verlangsamten, als wir versuchten, uns von einem Ausfall zu erholen, der nicht durch böswillige Aktivitäten, sondern auf einen von uns selbst verursachten Fehler zurückzuführen war.“

Anzeige
Anzeige

Diese Verzögerungen sind für ihn indes ein Feature und kein Bug: „Ich glaube, dass ein Kompromiss wie dieser es wert ist – stark erhöhte Sicherheit im Alltag gegenüber einer langsameren Erholung von einem hoffentlich seltenen Ereignis wie diesem.“

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige