Am 14. März dieses Jahres kam es bei der Social-Media-Plattform
Reddit zu einem stundenlangen Ausfall des Dienstes. Das Entwicklungsteam
hat dazu eine ausführliche Analyse veröffentlicht. Der
mehrstündige Ausfall hatte nicht nur technische Gründe,
sondern das Beheben wurde erheblich durch fehlendes Wissen über
die eigenen Dienste verzögert.
Demnach war der Auslöser des Ausfalls ein Update von Kubernetes
1.23 auf Version 1.24. Trotz zahlreicher Tests soll es zu einem
nie zuvor gesehenen Fehler gekommen sein. Um den Ausfall zu beheben
entschied sich das Team nach Stunden, ein Zurückrollen der
Version und Einspielen eines Back-ups umzusetzen. Zwar war die eigentliche
Ursache für den Ausfall noch immer nicht gefunden und es ging
dabei auch einiges schief, aber letztlich funktionierte es dann
wieder.
Das Team hat die Suche danach in den Logs mit der Suche nach einer
Nadel im Heuhaufen verglichen. Dem Team fiel dann irgendwann auf,
dass das Mesh-Netzwerk
zwischen den Knoten im Cluster offline war. Sämtliche Routen
zwischen den Knoten waren verworfen worden. Das Reddit-Team setzt
auf sogenannte Route Reflectors, die als Alternative zu einem vollständigen
Mesh zum Einsatz kommen, um den Aufbau zu skalieren.
Im Blogpost
heißt es: "Die Route Reflectors wurden vor einigen Jahren
vom Vorgänger des heutigen Compute-Teams eingerichtet. Die
Zeit verging, und mit der Fluktuation und dem Wachstum wechselten
alle, die von deren Existenz wussten, in andere Funktionen oder
andere Unternehmen. Nur unsere größten und ältesten
Cluster verwenden sie noch. Es gab also niemanden, der über
das Wissen verfügte, mit der Route-Reflector-Konfiguration
zu interagieren, um überhaupt zu erkennen, dass etwas nicht
in Ordnung sein könnte, oder der in der Lage war, sich zu melden
und das Problem zu untersuchen."
(ts, hannover)
(siehe auch: Golem-Ticker)
Hannover
· EDV-Beratung · Linux · Novell · Microsoft ·
Seminar · IT-Consult · Netzwerk · LPIC · CLE
|