Crowdstrike erklärt Update-Problem: Dieser Fehler führte zum Ausfall von 8,5 Millionen Windows-Rechnern
Am 19. Juli 2024 kam es zu einem Ausfall von rund 8,5 Millionen Windows-Rechnern, die mit Sicherheitssoftware von Crowdstrike ausgestattet waren. Betroffen waren Flughäfen, Krankenhäuser, Banken und weitere Unternehmen.
Das Sicherheitsunternehmen hat nun einen vorläufigen Post-Incident-Review veröffentlicht, in dem es die Ursachen des Ausfalls erklärt und Maßnahmen zur Verhinderung zukünftiger Vorfälle beschreibt. Dabei stellte das Unternehmen klar, dass es sich nicht um eine Cyberattacke handelte, sondern um einen internen Fehler.
So kam es zu dem fehlerhaften Update
Dem Bericht zufolge veröffentlicht Crowdstrike Updates auf zwei Arten. Zum einen gibt es Sensorinhalte, die direkt den sogenannten Falcon-Sensor des Unternehmens updaten. der auf der Kernel-Ebene von Windows läuft.
Zum anderen gibt es den sogenannten Rapid-Response-Content, der das Verhalten des Sensors aktualisiert, um beispielsweise neue Betrugsmaschen schnell zu erkennen. Das Update, das zu den Abstürzen am 19. Juli führte, war ein solches Rapid-Response-Content-Update.
Das Problem lag darin, dass der Content-Validator versagt hat. Die Funktion soll eigentlich sicherstellen, dass keine problematischen Inhalte ausgespielt werden. Obwohl problematische Inhalte vorhanden waren, hat das Update die Validierung bestanden.
„Als der Sensor problematische Inhalte in der Kanaldatei 291 empfing und in den Content-Interpreter lud, führte dies zu einem Out-of-Bounds-Speicherlesevorgang, der eine Ausnahme auslöste. Diese unerwartete Ausnahme konnte nicht ordnungsgemäß behandelt werden und führte zu einem Absturz des Windows-Betriebssystems (BSOD)“, schreibt das Unternehmen. „BSOD“ steht dabei für Bluescreen of Death, also den berühmten blauen Bildschirm von Windows.
So sollen fehlerhafte Updates verhindert werden
Damit ein solcher Vorfall nicht erneut passiert, hat Crowdstrike zusätzliche Maßnahmen eingeführt, um Rapid-Response-Content-Updates sicherer zu machen. Zukünftig sollen diese Updates lokalen Entwicklertests, Rollback- und Stresstests sowie Stabilitätstests unterzogen werden. Auch die Schnittstellen sollen vorab getestet werden.
Der Content-Validator erhält außerdem neue Prüfmechanismen, die speziell auf diese Art von problematischen Inhalten reagieren sollen.
Weiterhin werden Updates nun schrittweise ausgerollt und nicht mehr gleichzeitig an alle Kunden verteilt, um einen erneuten Massenausfall von Rechnern zu verhindern. Kunden erhalten zudem die Möglichkeit, selbst zu entscheiden, welche Updates wann auf ihren Rechnern installiert werden sollen.