Laut
Amazon ist die mehrstündige Störung des S3-Diensts
auf Amazon Web Services (AWS) auf menschliches Versagen zurückzuführen.
Dadurch standen dem Dienst kurzzeitig weniger Server zur Verfügung
als benötigt. Ein Tippfehler während geplanter Wartungsarbeiten
war dabei der Auslöser.
Das Simple-Storage-Service-Team
(S3) untersuchte demnach einen Fehler, der dazu führte, dass
das S3-Abrechnungssystem langsamer arbeitete als erwartet. Um
9.37 Uhr Westküstenzeit führte ein autorisiertes S3-Teammitglied
einen Befehl aus, um eine geringe Anzahl Server eines S3-Subsystems
zu entfernen, die für den S3-Abrechnungsprozess benutzt werden,
gab Amazon bekannt. Unglücklicherweise war eine Eingabe
des Befehls falsch und es wurde eine größere Anzahl Server
entfernt als geplant.
Der Fehler deaktivierte anschließend zwei weitere Subsysteme,
die für alle S3-Objekte in der Region US-East-1 benötigt
werden. Nach einem vollständigen Neustart standen beide Systeme
wieder zur Verfügung. Zusammen mit den notwendigen Sicherheitsprüfungen
habe dieser Vorgang zudem mehr Zeit benötigt als erwartet,
erläuterte Amazon.
Um derartige Fehler in der Zukunft zu verhindern, kündigte
Amazon zusätzlich
verschiedene Maßnahmen an. Obwohl die Entfernung von
Kapazitäten ein normaler operativer Vorgang ist, ermöglichte
es das Tool, zu viele Kapazitäten zu schnell zu entfernen.
Wir haben das Tool so verändert, dass es Kapazitäten langsamer
abbaut, und Sicherheitsvorkehrungen eingeführt, um zu verhindern,
dass ein Subsystem seine Mindestkapazität unterschreitet,
ergänzte Amazon.
(ms, hannover)
(siehe auch zdnet.de:)
Hannover · EDV-Beratung ·
Linux · Novell · Microsoft · Seminar ·
IT-Consult · Netzwerk · LPIC · CLE
|