Prof. Dr. G. Hellberg EDV Beratung und Softwareengineering seit 1984

Mailadresse fuer Kontaktaufnahme
NewsNews
 
Die Hellberg EDV Beratung ist SuSE Business Partner
 
Professor Hellberg ist Certified Novell InstructorDie Hellberg EDV Beratung ist Novell Business Partner
 
Die Hellberg EDV Beratung ist Microsoft Partner
 
GDATA Software
 
 
News
 

Am 14. März dieses Jahres kam es bei der Social-Media-Plattform Reddit zu einem stundenlangen Ausfall des Dienstes. Das Entwicklungsteam hat dazu eine ausführliche Analyse veröffentlicht. Der mehrstündige Ausfall hatte nicht nur technische Gründe, sondern das Beheben wurde erheblich durch fehlendes Wissen über die eigenen Dienste verzögert.

Demnach war der Auslöser des Ausfalls ein Update von Kubernetes 1.23 auf Version 1.24. Trotz zahlreicher Tests soll es zu einem nie zuvor gesehenen Fehler gekommen sein. Um den Ausfall zu beheben entschied sich das Team nach Stunden, ein Zurückrollen der Version und Einspielen eines Back-ups umzusetzen. Zwar war die eigentliche Ursache für den Ausfall noch immer nicht gefunden und es ging dabei auch einiges schief, aber letztlich funktionierte es dann wieder.

Das Team hat die Suche danach in den Logs mit der Suche nach einer Nadel im Heuhaufen verglichen. Dem Team fiel dann irgendwann auf, dass das Mesh-Netzwerk zwischen den Knoten im Cluster offline war. Sämtliche Routen zwischen den Knoten waren verworfen worden. Das Reddit-Team setzt auf sogenannte Route Reflectors, die als Alternative zu einem vollständigen Mesh zum Einsatz kommen, um den Aufbau zu skalieren.

Im Blogpost heißt es: "Die Route Reflectors wurden vor einigen Jahren vom Vorgänger des heutigen Compute-Teams eingerichtet. Die Zeit verging, und mit der Fluktuation und dem Wachstum wechselten alle, die von deren Existenz wussten, in andere Funktionen oder andere Unternehmen. Nur unsere größten und ältesten Cluster verwenden sie noch. Es gab also niemanden, der über das Wissen verfügte, mit der Route-Reflector-Konfiguration zu interagieren, um überhaupt zu erkennen, dass etwas nicht in Ordnung sein könnte, oder der in der Lage war, sich zu melden und das Problem zu untersuchen."

(ts, hannover)

(siehe auch: Golem-Ticker)

Hannover · EDV-Beratung · Linux · Novell · Microsoft · Seminar · IT-Consult · Netzwerk · LPIC · CLE