Navigatie overslaan.
Start

Downtime

Dus, ik heb net een vrij lange downtime gehad. Ik mag mijn five nines nu wel vergeten. ;-)
De vorige keer dat deze server geboot was, was op 9 Januari 2007 11:21h. De server ging down op 29 Januari 2009. De server had dus een uptime van meer dan 2 jaar. Deze is helemaal foetsjie.:-(

Oorzaak: Hetzner (Mijn hoster) heeft even 12.000+ servers zonder stroom gezet.
Oeps.

Dan heb ik dus 2 servers, in 2 verschillende datacenters, en dan vallen beide datacenters gelijktijdig, en volledig, uit.

De electriciteit kwam vrij vlug weer up, maar mijn servers vereisen een manuele interventie om alle services terug up-and-running te krijgen. (Dat is zo by design, en heeft een aantal redenen.)
Wegens werk en andere verplichtingen duurde het een tijdje om aan de servers te kunnen werken.
De eerste server was vrij snel terug up, maar helaas wilde de andere niet meer.

Deze website (blog) is niet redundant, wegens de simpele reden dat de 2 servers niet over evenveel schijfruimte beschikken, en de server die wel up was, helaas de minste schijfruimte had. (www.knudde.be draait op een andere server, en was wel bereikbaar.)

Anyway.
Hetzner heeft een "rescue" mode en remote reset mogelijkheid, zodat ik mijn servers steeds via het netwerk kan booten in een soort van rescue omgeving. De webinterface om daar aan te kunnen, was echter ook niet meer beschikbaar. (Ook de servers van Hetzner zelf zaten zonder stroom.)
Ook het rescuesysteem was off-line.

Na enkele uren waren deze terug beschikbaar, maar kon ik nog steeds niet booten. Reden: Power supply van systeem kapot. :-(

Nadat deze vervangen was, kon ik wel via het rescuesysteem booten tenminste toch al mijn filesystems checken, en herstellen.
Daarna kon ik mijn MySQL tables checken en herstellen.
Toch wilde de server nog steeds niet zelfstandig booten, dus vroeg ik naar een "Lara". Dit een een KVM over IP, zodat ik remote dezelfde access (Toetsenbord, muis, etc...) had als lokaal.

Als er 12.000+ servers zonder stroom vallen, dan geeft dat een vloedgolf over de support dienst, dus was het helaas nummertje trekken en afwachten...
Wachten tot maandag. (Vandaag) :-(

Nadat ik een Lara had toegewezen gekregen, zag ik dat mijn server in de Lilo bootloader vast hing:

"L 99 99 99 99 99 99 99 99 99 99 99 99..."
Niet goed.

Dus, weer naar rescue mode.
Lilo opnieuw installeren in de MBR van de harde schijf, en voila: Server boot weer.

Natuurlijk heb ik weer een aantal lessen geleerd, en de plannen worden al gesmeed om alles nog beter te maken.
Alles voor 100% remote doen, heeft natuurlijk zijn nadelen in dergelijke omstandigheden, maar het maakt het wel allemaal een heel stuk spannender. ;-)

Stromausfall RZ3, RZ4, RZ5

Stromausfall RZ3, RZ4, RZ5 und Teile RZ9
Status-Typ: Störungsmeldung
Bereich: Basis Infrastruktur
Start: 29.01.2009 11:22 Uhr
Ende: unbekannt
Beschreibung: [english version below]
Sehr geehrter Kunde,
leider sind bei geplanten Wartungsarbeiten in unseren Rechenzentren heute um 11.00 Uhr
Störungen aufgetreten. Unsere Techniker arbeiten mit Hochdruck an der
Ursachenanalyse und der Behebung des Problems.
Wir bitten für die Unannehmlichkeiten um Entschuldigung.
Vielen Dank für Ihr Verständnis.
-------------------------------------------------------------------------------------
Dear customer,
Unfortunately we had experienced disturbances during planned maintenance work in our
data centers today at 11.00 am. Our technicians working with pressure to solve the problem.
Thanks for your understanding.
Update:
29.01.2009 11:43 Uhr
Die Stromversorgung ist aktuell bei den meisten Systemen wieder hergestellt. Wir arbeiten derzeit an der Störungsanalyse und ziehen alle verfügbaren Supportkräfte in den betroffenen Rechenzentren zusammen.
----------
Power is now available on all systems. We are currently working to bring all server back to normal.
Update:
29.01.2009 12:21 Uhr
Wir arbeiten mit allen verfügbaren Mitarbeitern an der Wiederherstellung der betroffenen Server. Die meisten Server sollten zwischenzeitlich nach Spannungsrückkehr wieder verfügbar sein. Unser Netzwerk sollte komplett verfügbar sein. Wir arbeiten aktuell an der Wiederherstellung von Robot und Rescue System. Leider ist unser Mailsystem in mitleidenschaft gezogen worden, und uns erreichen aktuell keine E-Mails. Wir geben bekannt, sobald das Mailsystem wieder funktioniert.
Update:
29.01.2009 13:05 Uhr
Das Rescue System sollte zwischenzeitlich wieder verfügbar sein. Sollte Ihr Server einen manuellen Filesystem Check zum Hochfahren benötigen, steht Ihnen das Rescue System aktuell wieder zur Verfügung.
Update:
29.01.2009 13:05 Uhr
The rescue system is available again. If your server needs a manual
filesystem check to boot, please make use of the rescue system.
Update:
29.01.2009 13:31 Uhr
Aufgrund der Vielzahl an ausgefallenen Servern, bitten wir um Verständnis, dass die Wiederherstellung von defekten Servern im Einzelfall noch den ganzen Tag über dauern kann. Die Rechenzentren beherbergen ca. 12.000 Server. Die meisten Systeme sind nach Rückkehr der Spannungsversorgung wieder verfügbar. Ab sofort können Störungsmeldungen an rz3@hetzner.de gesendet werden. Im Augenblick muss mit mehreren Stunden Bearbeitungszeit gerechnet werden.
Update:
29.01.2009 13:31 Uhr
Most systems are available again after returning the power.
Nevertheless please note that due to numerous failed servers, the recovery of all servers will take some hours. Disturbance notices can be sent to rz3@hetzner.de. The handling time will be several hours.
Thank you for your understanding.
Update:
29.01.2009 14:00 Uhr
Wir arbeiten aktuell alle Systeme ab, welche nicht auf Netzwerkanfragen reagieren. Bitte haben Sie mit individuellen Supportanfragen noch etwas Geduld. Da wir diese Checks (Rackreihe für Rackreihe) sehr viel schneller abarbeiten können, als individuelle Supportanfragen, bitten wir Sie mit individuellen Anfragen noch zu warten. Wir geben hier bekannt, wenn die Checks von uns soweit abgeschlossen sind. Bitte haben Sie Verständnis, dass wir derzeit telefonisch keinen individuellen Support für einzelne Server leisten können.
Update:
29.01.2009 14:00 Uhr
We are working at all current systems, which do not respond to network requests.
Please understand that we cannot answer individual support tickets or phone calls at the moment.
Update:
29.01.2009 14:53 Uhr
Aktuelle Stand:
Von den ca. 12.000 ausgefallenen Servern, sind nach dem Rückkehr der Spannungsversorgung gegen 11:40 etwa 9400 wieder selbständig gestartet.
Wir haben zwischenzeitlich ca. 2100 Server wieder online gebracht.
Aktuell sind noch ca. 350 Server nicht erreichbar.
Update:
29.01.2009 14:53 Uhr
Current Status:
After the return of power supply at 11:40 am approx. 9,400 servers from around 12,000 failed servers have booted autonomous. Further 2,100 servers are meanwhile up again. Presently 350 servers are still not available.
Update:
29.01.2009 16:26 Uhr
Die meisten Serversysteme sind zwischenzeitlich wieder online. Wir gehen nun dazu über uns um die schwerwiegederen Fälle zu kümmern. Hier werden Netzteile getauscht, Prozessorlüfter, Festpaltten - was letztendlich notwendig ist, um die Server wieder online zu bekommen. Da diese Arbeiten deutlich arbeitsintensiver sind, wird es bei solchen Fehlern bis spät in die Nacht hinein dauern, bis alle Tickets aufgearbeitet sind.
Update:
29.01.2009 16:26 Uhr
Most server systems are meanwhile back online. We will now move on to
the more serious cases, where power packs, processor fans, hard disks, etc. has to be changed. This cases are much more labor-intensive, so it will be take into the evening hours to bring these systems back online.
Update:
29.01.2009 16:55 Uhr
Um auch die problematischen Fälle aufzuarbeiten, wird unser Support im RZ3/4/5/9 die ganze Nacht über besetzt sein, um Ihre Supportanfragen abzuarbeiten. Alle verfügbaren Mitarbeiter sind nach wie vor beschäftigt, Server Online zu bringen.
Update:
29.01.2009 16:55 Uhr
In order to handle the problematical cases our support technicians in the data center 3/4/5/9 are available all night to answer your support queries. All technicians are still engaged to bring server back online.
Update:
29.01.2009 20:04 Uhr
Eben wurden die Arbeiten an den USV Systemen abgeschlossen, und die Stromversorgung arbeitet wieder im Regelbetrieb.
Was die Inbetriebnahme von Servern anbelangt, so arbeitet unser Team nach wie vor Tickets ab. Oftmals kommen jetzt eher die schwierigeren Patienten an die Reihe, so dass die Reparaturen oft länger dauern. Sollte Ihr Server noch immer offline sein, bitten wir Sie weiter um Geduld. Die Tickets werden weiter Schritt für Schritt abgearbeitet. Der Support wird die ganze Nacht über an Kundensystemen arbeiten, und über das Ticketsystem erreichbar sein. Weiter haben wir die Supportschicht morgen mit mehr Personal als normal ausgestattet.
Update:
29.01.2009 20:04 Uhr
The maintenance work on the UPS systems are completed now. The power supply runs in normal operation again. Our support technicians are continuing to answer your support queries. Please note that in some
cases the handling of queries are time-consuming and takes longer than others. If your server is still offline, please be patient. Our support technicians are available all night to answer your support queries. In addition to that we will raise the number of staff members in the morning shift.
Update:
29.01.2009 21:55 Uhr
Status: Managed Server + Shared Server
Alle Managed Server sowie alle Shared Server bis auf den Server www8.your-server.de sind wieder normal erreichbar. Am letzten verbliebenen Shared Server www8 wird noch gearbeitet, der Server wird in Kürze ebenfalls online gehen.
Update:
29.01.2009 21:55 Uhr
Status: Managed Servers + Shared Servers
All managed servers and shared servers except server www8.your-server.de are back to normal. The last remaining shared server www8 is still be handled - the server will be available soon.
Update:
30.01.2009 09:50 Uhr
Aktueller Status:
Alle Shared Hosting und Managed Server sind wieder online.
Bei Webseiten wo es Probleme mit der MySQL-Datenbank gibt, bitte einen Reparaturversuch durchführen wie auf
http://wiki.hetzner.de/index.php/Wie_kann_ich_Probleme_mit_meiner_Datenb... beschrieben.
Alternativ bitte eine E-Mail an support@hetzner.de senden.
Für alle Root Server-Kunden, bei denen ihr Server noch nicht wieder online ist, bitte Folgendes beachten:
Falls Sie schon ein Ticket an rz3@hetzner.de oder support@hetzner.de gesendet haben, bitte davon absehen ein erneutes Ticket zu senden.
Alle Tickets werden der Reihe nach mit Hochdruck abgearbeitet.
Aktuell sind noch ca. 180 Tickets offen.
---------------------------------------------------------------
Current status:
All shared hosting and managed servers are back online.
If you have problems with the MySQL database of your website,
please have a look at http://wiki.hetzner.de/index.php/Wie_kann_ich_Probleme_mit_meiner_Datenb... to repair. Alternatively please e-mail to support@hetzner.de.
To all root server customers, where the server is not yet back online, please note the following:
If you have already sent a ticket to rz3@hetzner.de or support@hetzner.de, please do not send another ticket.
All technicians are still engaged to answer your queries. Presently around 180 tickets are still open.
Update:
30.01.2009 12:00 Uhr
Sehr geehrter Kunde,
leider waren am 29.01.2009 um 11:15 Uhr unsere Rechenzentren 3, 4, 5
und zum Teil das Rechenzentrum 9 von einem Stromausfall betroffen.
Die Stromversorgung konnte provisorisch um 11:31 Uhr wieder hergestellt werden.
Nach weiterer Analyse des Vorfalls und einer Reihe von kurzfristig eingeleiteten
Reparaturen und Wartungsmaßnahmen konnte die Stromversorgung gegen
20:00 Uhr wieder den Regelbetrieb aufnehmen.
In der Zeit zwischen 11:31 Uhr und 20:00 Uhr wurde die Stromversorgung
primär über einen manuellen Bypass zu den USV-Anlagen betrieben.
Durch das unglückliche Zusammentreffen von 3 Faktoren ist es zu
dem Zwischenfall gekommen:
1. Fehlende Redundanz auf USV-Seite durch die Wartung eines der
drei USV Systeme
2. Fehlfunktion eines Leistungsschalters in einer zentralen
Stromverteilungsanlage
3. Ein Schalter, welcher einen manuellen Bypass zu den USV-Systemen
herstellt, ließ sich nicht kurzfristig auslösen.
Wir werden aufgrund des Vorfalls unser Stromversorgungskonzept nochmals
gründlich überprüfen, um ähnliche Vorgänge in Zukunft so weit wie möglich
auszuschließen.
Wir bedauern den Vorfall außerordentlich und möchten uns bei den betroffenen
Kunden für den Ausfall entschuldigen. Weiter möchten wir uns bei
vielen Kunden bedanken, die mit Geduld und Nachsicht auf den
Vorfall reagiert haben.
Mit freundlichen Grüßen
Martin Hetzner
Hetzner Online AG
Update:
30.01.2009 12:00 Uhr
Dear customer,
At 11:15 am, Thursday, 29 January, our data centers 3, 4, 5 and partly the data center 9 were unfortunately affected by a power outage.
The power supply was temporarily restored at 11:31 am. Upon further
investigation of the incident and a series of short set repairs and
maintenance work, the power supply was in normal operation at 8:00 pm.
Between 11:31 am and 8:00 pm the power was operated primarily through a manual bypass to the UPS systems.
The incident came into effect due to the unfortunate combination of 3 factors:
1. Lack of redundancy on the UPS because of maintenance work on one of three UPS
2. Malfunction of a circuit breaker in a central power unit
3. The switch to a manual bypass to the UPS systems was not possible to trigger
We will review our power supply concept to eliminate similar issues as far as
possible in the future.
We extremely regret the incident and apologize to the affected customers. Next we would like to thank many customers, who have responded with patience and forbearance on this issue.
Best regards,
Martin Hetzner
Hetzner Online AG