Bisher galten CPU trotz immer wieder vorkommender Rechenfehler als weitgehend zuverlässig, was ihre Berechnungen anging. Das scheint sich jetzt zu ändern, wie unter anderem Google berichtet. Die immer ausgefeilteren CPU rechnen offenbar immer öfter falsch, was sich vor allem in großen Rechenzentren zeigt. Facebook hatte zuletzt eine zunehmende sogenannte „stille Daten-Korruption“ bemerkt.
Google und Facebook: CPU korrumpieren Daten
Google-Ingenieur Peter Hochschild hat in der vergangenen Woche im Rahmen der Fachkonferenz Hot Topics in Operating Systems (HotOS) 2021 darüber berichtet, dass sich Produktionsteams bei dem Suchmaschinenkonzern zunehmend über Maschinen beklagten, die Daten korrumpieren würden. Die Maschinen hätten verschiedene stabile und eigentlich fehlerfrei laufende Anwendungen beschädigt. In konventionellen Untersuchungen habe man aber keine Fehler finden können, heißt es in einem entsprechenden Bericht.
Das Augenmerk der Google-Ingenieure sei dann auf die Hardware gefallen. Das Ergebnis: Hardwarefehler seien häufiger vorgekommen als erwartet. Zudem hätten sich die Probleme sporadisch und lange nach der Installation gezeigt – und speziell bei einzelnen CPU-Kernen. Google bezeichnet das Phänomen als Silent Corrupt Execution Errors (CEE) und die sich fehlerhaft verhaltenden Kerne als unvorhersehbar.
Google macht CPU-Designs verantwortlich
Schon im Februar hatte Facebook einen Bericht veröffentlicht, in dem der Social-Media-Konzern die stille Daten-Korruption als Phänomen bezeichnete, das in Rechenzentren jetzt öfter auftrete, als es den Vorhersagen nach sein dürfe. Einen Grund dafür nannte Facebook nicht. Für Google steht derweil fest, dass die immer schneller rechnenden und kleineren CPU-Designs dafür verantwortlich seien, wie The Register schreibt.
Das Problem: Die Rechenfehler können schwerwiegende Auswirkungen haben. So soll eine CPU in einem Google-Rechenzentrum eine Art unvorhersehbaren Ransomware-Angriff ausgeführt haben, indem die Maschine etwas – fehlerhaft – so verschlüsselt habe, dass nur sie es wieder entschlüsseln konnte. Auch Crashs und Datenverlust sehen die Experten als zunehmende Herausforderungen. Google und Facebook wollen jetzt ihre Tests ausweiten, um Lösungen für das Problem zu finden.
Gibt es Daten dazu, ob eher Intel oder AMD CPUs davon betroffen sind?
Mich würde interessieren, ob das generell zu früh/spät öffnende/schließende Schaltkreise oder eher Fehler in den Zusatzfunktionen – wie das präventive Vorausrechnen (hab Intels Fachbegriff dafür grad nicht im Kopf) – dafür verantwortlich sind.
Wenn Google die Probleme bereits in der Architektur sieht, müssten die wohl schon eine Idee zum genaueren Verursacher haben.