Am Dienstag waren Facebook, Whatsapp und Instagram sowie Workplace und Oculus VR für die Dauer von plötzlich weltweit nicht verfügbar. Der Versuch, einen der Dienste aufzurufen, resultierte in einer Fehlermeldung. Erst sechs Stunden später liefen die betroffenen Dienste offenbar wieder stabil.
In einem Blogpost benannte Facebook Konfigurationsänderungen an den Routern, die den Netzwerkverkehr zwischen den unternehmenseigenen Rechenzentren koordinieren, als Ursache. Diese Unterbrechung des Netzwerkverkehrs habe die Kommunikation zwischen den Rechenzentren kaskadenartig zum Stillstand gebracht.
Offenbar funktionierte die Auflösung der DNS-Namen infolge der fehlerhaften Konfiguration nicht mehr und die Infrastruktur-IP der betroffenen Dienste waren nicht mehr erreichbar. Wie das passieren konnte?
Zentraler Routing-Mechanismus: Was ist eigentlich BGP?
Das Internet ist ein globales, dezentrales Netzwerk, das aus vielen kleineren, miteinander verbundenen Netzwerken besteht. Diese Netzwerke bestehen größtenteils aus Hosts und Zwischensystemen, den sogenannten Routern. Informationen durchlaufen ein Netzwerk auf einem von vielen Wegen. Welcher der aktuell günstigste für die Weiterleitung einer Information ist, wird in einem Prozess namens Routing ausgewählt. Die Router, die für das Funktionieren des Internets verantwortlich sind, verfügen über riesige, ständig aktualisierte Listen dieser möglichen Routen über die die Netzwerkpakete an ihr Ziel geleitet werden können.
Das Standardprotokoll des Internets für den Austausch von Informationen über die Erreichbarkeit zwischen Hosts und Routern sowie die Pfadauswahl heißt BGP. Die Abkürzung steht für Border Gateway Protocol. Vereinfacht gesagt: Ohne BGP wüssten die Internet-Router nicht, was sie tun sollen, und das Internet würde nicht funktionieren.
Was genau sind AS und ASN?
BGP ermöglicht es einem sogenannten autonomen System (kurz AS), wie Facebook, seine Präsenz bei anderen Netzwerken des Internets anzuzeigen. Zeigt Facebook seine Präsenz nicht an, können Serviceprovider und andere Netze das Facebook-Netz nicht finden. Ein autonomes System ist ein Verwaltungsbereich, also ein Netz oder eine Gruppe von Netzen unter einer gemeinsamen Verwaltung, mit gemeinsamen Routing-Richtlinien. Jedes dieser Netzwerke verfügt über eine sogenannte Autonomous System Number, die man sich als eine Art Big-Boss-IP-Adresse vorstellen kann. Die Aufgabe der ASN ist es, sogenannte Prefix Routes bekannt zu geben, sodass das Netzwerk – Facebook – gefunden werden kann. Diese Bekanntgabe läuft via BGB.
BGP: Welche Probleme gibt es?
BGP gilt als vergleichsweise simples Protokoll. Es wird seit der Kommerzialisierung des Internets eingesetzt und galt lange als stabil und verlässlich. Mit der schnellen Entwicklung des Internets in den letzten beiden Jahrzehnten kamen in Verbindung mit BGP immer wieder Performance- und Security-Probleme ans Licht.
Routing-Tabellen müssen mit dem Netzwerk konsistent sein und werden von einer BGP-Implementierung ständig entsprechend der Änderungen in der Netzinfrastruktur aktualisiert. Beispiele für solche Änderungen sind ausgefallene und wiederhergestellte Router oder unterbrochene und wiederhergestellte Verbindungen. Solche Vorkommnisse gelten als normal und kommen ständig vor.
Was genau ist bei Facebook passiert?
Wird ein Router – wie bei Facebook – allerdings falsch konfiguriert, kann es offenbar passieren, dass die Routes aus der Routing-Tabelle verschwinden. Ohne eine funktionierende Verbindung kann von außerhalb dann niemand mehr auf einen Service zugreifen – möglicherweise der Grund, warum das Problem offenbar erst von Techniker:innen mit physischem Zugang zu besagten Routern behoben werden konnte.
Was folgt aus #Facebookdown?
Darüber, ob bisher vorgestellte Alternativen zu BGP wirklich ein gangbarer Ersatz für das Protokoll sein können, wird seit geraumer Zeit diskutiert – dass es irgendwann eine neue Lösung geben sollte, zeigt der Facebook-Ausfall allerdings eindrucksvoll: Soziale Netzwerke, VR und ein Messenger sind das eine, eine solche Fehlkonfiguration könnte schließlich theoretisch auch kritische Infrastruktur treffen.