Zu den Ursachen für den Ausfall der Microsoft cloud-basierten
Dienste hat das Unternehmen Informationen
veröffentlicht. Am Mittwochmorgen, den 25. Januar, konnten
aufgrund eines Ausfalls im Bereich der Azure Cloud von Microsoft
eine Vielzahl von Nutzern nicht auf Applikationen und Dienste zugreifen,
die über diese Plattform gehostet werden. Unter anderem waren
das weit verbreitete Kollaborationswerkzeug Teams, aber auch andere
Microsoft 365 Anwendungen wie Outlook, Word, Excel davon betroffen.
Ein geplanter Change an einem WAN-Router war die Ursache. Laut
Microsoft
sollte eine IP-Adresse auf dem Router verändert werden. Durch
das dafür abgesetzte Kommando an den Router wurden Nachrichten
an alle Router im WAN gesendet. Das führte allerdings zu einer
Neukalkulation von Weiterleitungsinformationen (Adjacency
und Forwarding Tables) auf der Control Plane. Die Router konnten
während dieser Neukalkulation die jeweils hindurch fließenden
Pakete nicht korrekt weiterleiten.
Auf verschiedenen Routern verhält sich der ursächliche
Befehl unterschiedlich. Auf der Routerplattform, auf der er ausgeführt
wurde, hatte er nicht den vollständigen Qualifizierungsprozess
durchlaufen.
Microsoft bemerkte bereits sieben Minuten nach dem Ausfall die
DNS- und WAN-Fehler und führte ein Review der zuvor getätigten
Changes durch. Ein automatisierter Recovery-Prozess im Netzwerk
begann dann nach ungefähr einer Stunde. Noch vor dem Mittag
nahm die letzte Netzwerkkomponente wieder ihre Funktion auf. Es
kam aber noch bis 13:43 Uhr zu Paketverlusten und viele Router brauchten
noch einen manuellen Neustart.
Jetzt hat Microsoft zunächst Kommandos mit großem Einfluss
geblockt und alle Ausführungen den "safe change guidelines"
unterworfen. Innerhalb von vierzehn Tagen nach dem Vorfall soll
der finale Review des Vorfalls veröffentlicht werden.
(ts, hannover)
(siehe auch: Heise-News-Ticker)
Hannover
· EDV-Beratung · Linux · Novell · Microsoft ·
Seminar · IT-Consult · Netzwerk · LPIC · CLE
|