Um Fehler, die sonst unerkannt bleiben, müssen sich sogenannte
Hyperscale-Rechenzentren
kümmern: Denn durch die hohe Anzahl an Prozessorkernen machen
sich auch sehr seltene Probleme bemerkbar. Ein Google Forscherteam
beschreibt nun "launenhafte" (mercurial) Prozessorkerne,
die bestimmte Rechenaufgaben falsch verarbeiten.
Laut Google ist es typisch für sogenannte "Corrupt Execution
Errors" (CEE), dass sie nicht etwa bei allen Kernen eines individuellen
Prozessors oder Rechenbeschleunigers auftreten, sondern nur bei
einzelnen. Diese Kerne sind die erwähnten "mercurial Cores",
von denen es "einige wenige pro mehrere Tausend Server"
gibt.
Die Google-Experten verweisen in ihrem Konferenzbeitrag "Cores
that dont count" unter anderem auf die etwas ältere
Untersuchung von Facebook "Silent
Data Corruption at Scale", die ähnlich gelagerte Probleme
durch Silent Data Corruption (SDC) beschreibt.
Es werden von beiden Forschungsarbeiten keine konkreten Prozessortypen
genannt, die besonders betroffen wären. Jedoch werden ausdrücklich
spezialisierte Rechenbeschleuniger erwähnt, die Google auch
selbst entwickelt, beispielsweise Tensor Processing Units (TPUs).
Es geht den beiden Teams eher um die Entwicklung effizienter Methoden,
um derartige Fehler zu entdecken, und zwar sowohl durch zusätzliche
Hardware-Funktionen als auch mit Software. Dabei schlägt das
Facebook-Team Prüfalgorithmen vor, die jeder einzelne Prozessorkern
in gewissen Abständen verarbeitet, etwa im Zuge von Wartungsarbeiten.
Keinen direkten Zusammenhang zwischen der Fehlerhäufigkeit
und feineren Strukturen bei der Chipfertigung (Zitat: "SDCs
are a systemic issue across generations") sehen die Facebook-Forscher.
Das Google-Team wiederrum vermutet aber einen Zusammenhang: Als
grundlegende Ursache tippen sie auf "immer kleinere Strukturen,
die näher an die Grenzen der CMOS-Technik
heranrücken, im Verbund mit immer komplexeren Rechenwerken".
Nach den Studien von Facebook und Google kommen falsch rechnende
Prozessorkerne jedenfalls deutlich häufiger vor, als es Simulationen
und Qualitätsaussagen von Hardware-Herstellern vermuten lassen.
(hv, hannover)
(siehe auch: Heise-News-Ticker)
Hannover · EDV-Beratung ·
Linux · Novell · Microsoft · Seminar ·
IT-Consult · Netzwerk · LPIC · CLE
|