The Day After

Ja, so ungefähr wie in diesem Film war unser Lebensgefühl nach einem echten Supergau vor zwei Wochen.

Ein Lüfter unseres Server-Racks war verstorben, was einen Tag lang unbemerkt blieb und die Festplatten unseres Web-Servers und angeschlossenen Sicherungsserver (der auch gleichzeitig Notfallsserver spielt) derart überhitzte, dass sich binnen 30 Minuten insgesamt vier Platten auf zwei Geräten verabschiedeten. Während wir mit der Fehlerursache des ersten Ausfalls beschäftigt waren, durften wir gleich die nächsten Dropouts bewundern. Kein gutes Gefühl, seinen Ressourcen beim Sterben zuzusehen. Und das an einem Dienstag etwa 16:00 und Rushhour in den Web-Services.

Glücklicherweise hatten wir einen Worst-Case-Plan, der dann doch noch irgendwie zog: Firewall umkonfigurieren, Kabel umstecken und den Archiv-Server im Nebenraum ans Netz stellen. Der hatte zwar nur etwa drei Monate alte Daten drauf, aber egal, wir waren zumindest wieder sichtbar am Leben.

Doch der dicke Fisch lag noch vor uns. Lüfter tauschen, Geräte mit neuen Festplatten ausstatten, technisch erweitern und verbessern, Systeme frisch aufsetzen und dann das mühsamste: Datenbestand aus ca. 17 diversen Sicherungsläufen Schritt für Schritt auf den möglichst aktuellen Stand wieder rekonstruieren. Laienhafterweise würde man vermuten, dass modere Backup-Software da eine gute Hilfe ist und mal abgesehen von Bandwechseln kaum was zu tun wäre, aber dem ist bei weitem nicht so. Ich hab mich ungezählte Male gefragt, wozu wir fast 2.000 € für angeblich erstklassige Backup-Software ausgegeben haben, wenn das Ding dann so unintelligent und schwerfällig in der Bedienung ist und noch dazu zum Einschlafen langsam (was um 4 Uhr morgens echt schon ein Problem darstellt).

OK, Schwamm drüber. 24 Stunden später waren wir mit 99% des ursprünglichen Datenstandes und erneuerten Maschinen wieder am Netz, aber die restlichen 1% Brösel brauchten dann doch noch eine Woche Aufräumungsarbeiten. Vornehmlich Änderungen der letzten 14 Stunden vor dem Crash nachführen und Anpassungen an die mit der Neuinstallation verbundenen Versionsupgrades vorzunehmen, welche sich leider doch nicht so abwärtskompatibel verhalten wie erhofft. Ich sage nur $_SERVER[‚ORIG_PATH_TRANSLATED‘] und die PHP-Spezis werden wissend den Kopf nicken. Auch so Kleinigkeiten wie Web-Statistik und Crawler mussten völlig neu konfiguriert werden.

Erschwerend kam hinzu, dass wir zwei Tage nach dem Crash die Präsentation eines neuen Karriereportals für einen unserer Kunden unterstützen mussten, und der Tag davor für die Abnahmetests vorgesehen war. Wir haben daher bis knapp vor dem Absturz noch heftig an den Dingen gefeilt… Alles weg, alles nochmals am Dienstag neben den Aufräumungsarbeiten nachprogrammieren (was allerdings schon deutlich flotter ging, als beim ersten Mal), am Mittwochvormittag Abnahmetests, bis 14:00 noch Feilen und Polieren, um 14:00 Präsentation – Augen zu und durch. Alles gut gegangen, das Publikum mochte es, die kleinen Löcher wurden anders als beim Golf elegant umspielt.

Nun ja, es ist vorbei und ein bisserl stolz sind wir schon, eine solche Katastrophe gemeinsam bewältigt zu haben. Großes Lob und Dankeschön an dieser Stelle an das Team – viel geschlafen haben wir in der Woche nicht, und trotzdem lagen die Nerven nicht blank, sondern es wurde professionell und strukturiert gearbeitet. In solchen Situationen merkt man, wen man da um sich hat, wie viel Sicherheit einem engagierte Menschen geben können, die mit erstaunlicher sozialer Kompetenz Dinge einfach anpacken. Ich will niemanden hervorheben – alle waren sie großartig.

Gilt natürlich auch für unsere Kunden.
DANKE.

An unsere Kunden, die allesamt sehr fein und angemessen reagiert und uns später auch teilweise bei den Aufräumungsarbeiten unterstützt haben, wenngleich wir schon bemerken konnten, dass auch sie fallweise einigem Druck ausgesetzt waren.

Was haben wir gelernt? Festplatten-Arrays sollten mindestens doppelt gekühlt werden, Kühlungen sind viel wichtiger als man sie üblicherweise wahrnimmt und redundante System werden schneller kritisch als einem das lieb ist. Wer rechnet schon damit, dass vier Festplatten in einer halten Stunde perdu gehen? Kann aber passieren. Wie ein Tornado aus heiterem Himmel.

Was hat uns am meisten geschmerzt? Mal abgesehen davon, unseren Kunden Unannehmlichkeiten bereitet zu haben, die Tatsache, dass für diese Woche eigentlich eine Systemumstellung geplant war, wo wir unsere Services auf mehrere Server verteilt aufsetzen wollten, wobei diese Server einander laufend gegenseitig abgleichen. Wäre das drei Wochen später passiert, hätte kein Kunde was davon mitbekommen. Schicksal. So haben wir das jetzt eben nolens volens vorgezogen. Also lieber Kunde, derartiges sollte nach menschlichem Ermessen nicht mehr vorkommen.

Worüber haben wir nachgedacht? Wie wichtig die ständig aktuelle Web-Präsenz für Unternehmen heute geworden ist, sodass es problematisch wird, wenn es mal 24 Stunden nur Notbetrieb gibt. Vor nicht mal zwölf Jahren hatten nur drei unserer heutigen Kunden überhaupt eine Web-Site. Ein E-mail, das heute nicht binnen 24 Stunden beantwortet wird, lässt eine Firma nicht gut aussehen, vor zehn Jahren hat sich kaum jemand daran gestoßen, wenn eine Anfrage erst gut eine Woche später beantwortet wurde.

Wo führt das hin? Werden E-mails in zehn Jahren innerhalb von zwei Minuten von irgendeinem KI-System beantwortet werden? Menschen werden das wohl nicht mehr zu Stande bringen. Vielleicht sitzen wir dann in den Büros in kleinen Gruppen vor den Servern und versuchen gemeinschaftlich die Zukunft aus dem Lichterspiel der Server-Kontrollleuchten zu deuten? Vielleicht haben wir dann auch wieder mehr Zeit dafür, uns als Menschen zu empfinden.

siehe: http://www.tub.at

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s


%d Bloggern gefällt das: