Prof. Dr. G. Hellberg EDV Beratung und Softwareengineering seit 1984

Mailadresse fuer Kontaktaufnahme
NewsNews
 
Die Hellberg EDV Beratung ist SuSE Business Partner
 
Professor Hellberg ist Certified Novell InstructorDie Hellberg EDV Beratung ist Novell Business Partner
 
Die Hellberg EDV Beratung ist Microsoft Partner
 
GDATA Software
 
 
News
 

Um Fehler, die sonst unerkannt bleiben, müssen sich sogenannte Hyperscale-Rechenzentren kümmern: Denn durch die hohe Anzahl an Prozessorkernen machen sich auch sehr seltene Probleme bemerkbar. Ein Google Forscherteam beschreibt nun "launenhafte" (mercurial) Prozessorkerne, die bestimmte Rechenaufgaben falsch verarbeiten.

Laut Google ist es typisch für sogenannte "Corrupt Execution Errors" (CEE), dass sie nicht etwa bei allen Kernen eines individuellen Prozessors oder Rechenbeschleunigers auftreten, sondern nur bei einzelnen. Diese Kerne sind die erwähnten "mercurial Cores", von denen es "einige wenige pro mehrere Tausend Server" gibt.

Die Google-Experten verweisen in ihrem Konferenzbeitrag "Cores that don’t count" unter anderem auf die etwas ältere Untersuchung von Facebook "Silent Data Corruption at Scale", die ähnlich gelagerte Probleme durch Silent Data Corruption (SDC) beschreibt.

Es werden von beiden Forschungsarbeiten keine konkreten Prozessortypen genannt, die besonders betroffen wären. Jedoch werden ausdrücklich spezialisierte Rechenbeschleuniger erwähnt, die Google auch selbst entwickelt, beispielsweise Tensor Processing Units (TPUs).

Es geht den beiden Teams eher um die Entwicklung effizienter Methoden, um derartige Fehler zu entdecken, und zwar sowohl durch zusätzliche Hardware-Funktionen als auch mit Software. Dabei schlägt das Facebook-Team Prüfalgorithmen vor, die jeder einzelne Prozessorkern in gewissen Abständen verarbeitet, etwa im Zuge von Wartungsarbeiten.

Keinen direkten Zusammenhang zwischen der Fehlerhäufigkeit und feineren Strukturen bei der Chipfertigung (Zitat: "SDCs are a systemic issue across generations") sehen die Facebook-Forscher. Das Google-Team wiederrum vermutet aber einen Zusammenhang: Als grundlegende Ursache tippen sie auf "immer kleinere Strukturen, die näher an die Grenzen der CMOS-Technik heranrücken, im Verbund mit immer komplexeren Rechenwerken".

Nach den Studien von Facebook und Google kommen falsch rechnende Prozessorkerne jedenfalls deutlich häufiger vor, als es Simulationen und Qualitätsaussagen von Hardware-Herstellern vermuten lassen.

(hv, hannover)

(siehe auch: Heise-News-Ticker)

Hannover · EDV-Beratung · Linux · Novell · Microsoft · Seminar · IT-Consult · Netzwerk · LPIC · CLE