Google und Facebook: CPU werden immer komplexer – und rechnen häufiger falsch

In Rechenzentren wird immer öfter falsch gerechnet. (Bild: Facebook)
Bisher galten CPU trotz immer wieder vorkommender Rechenfehler als weitgehend zuverlässig, was ihre Berechnungen anging. Das scheint sich jetzt zu ändern, wie unter anderem Google berichtet. Die immer ausgefeilteren CPU rechnen offenbar immer öfter falsch, was sich vor allem in großen Rechenzentren zeigt. Facebook hatte zuletzt eine zunehmende sogenannte „stille Daten-Korruption“ bemerkt.
Google-Ingenieur Peter Hochschild hat in der vergangenen Woche im Rahmen der Fachkonferenz Hot Topics in Operating Systems (HotOS) 2021 darüber berichtet, dass sich Produktionsteams bei dem Suchmaschinenkonzern zunehmend über Maschinen beklagten, die Daten korrumpieren würden. Die Maschinen hätten verschiedene stabile und eigentlich fehlerfrei laufende Anwendungen beschädigt. In konventionellen Untersuchungen habe man aber keine Fehler finden können, heißt es in einem entsprechenden Bericht.
Das Augenmerk der Google-Ingenieure sei dann auf die Hardware gefallen. Das Ergebnis: Hardwarefehler seien häufiger vorgekommen als erwartet. Zudem hätten sich die Probleme sporadisch und lange nach der Installation gezeigt – und speziell bei einzelnen CPU-Kernen. Google bezeichnet das Phänomen als Silent Corrupt Execution Errors (CEE) und die sich fehlerhaft verhaltenden Kerne als unvorhersehbar.
Schon im Februar hatte Facebook einen Bericht veröffentlicht, in dem der Social-Media-Konzern die stille Daten-Korruption als Phänomen bezeichnete, das in Rechenzentren jetzt öfter auftrete, als es den Vorhersagen nach sein dürfe. Einen Grund dafür nannte Facebook nicht. Für Google steht derweil fest, dass die immer schneller rechnenden und kleineren CPU-Designs dafür verantwortlich seien, wie The Register schreibt.
Das Problem: Die Rechenfehler können schwerwiegende Auswirkungen haben. So soll eine CPU in einem Google-Rechenzentrum eine Art unvorhersehbaren Ransomware-Angriff ausgeführt haben, indem die Maschine etwas – fehlerhaft – so verschlüsselt habe, dass nur sie es wieder entschlüsseln konnte. Auch Crashs und Datenverlust sehen die Experten als zunehmende Herausforderungen. Google und Facebook wollen jetzt ihre Tests ausweiten, um Lösungen für das Problem zu finden.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team
Gibt es Daten dazu, ob eher Intel oder AMD CPUs davon betroffen sind?
Mich würde interessieren, ob das generell zu früh/spät öffnende/schließende Schaltkreise oder eher Fehler in den Zusatzfunktionen – wie das präventive Vorausrechnen (hab Intels Fachbegriff dafür grad nicht im Kopf) – dafür verantwortlich sind.
Wenn Google die Probleme bereits in der Architektur sieht, müssten die wohl schon eine Idee zum genaueren Verursacher haben.