Sind Sie auf eine Katastrophe vorbereitet? Teil 2

10. November 2008 | Von | Kategorie: Hochverfügbarkeit

Ein Internet-Artikel der NEWSolutions: Sind Sie ausreichend auf den Fall vorbereitet, dass Ihr System von einer Katastrophe heimgesucht wird? Simple Geschehnisse können selbst das erfolgreichste Unternehmen in die Knie zwingen. Als Verantwortlicher in einem Support Center, der sich auf Wiederanlaufsituationen im Katastrophenfall spezialisiert hat, bat ich bei der Vorbereitung …

Im heutigen zweiten Teil werden Recovery-Planung, Recovery-Tests und häufig auftretende Probleme behandelt. Teil 1 ist in der Märzausgabe 2008 von NEWSolutions erschienen.

von Brian Bohner

über den Autor
Brian Bohner (bbohnerääätus.ibm.com) ist Spezialist für Wiederanlaufsituationen nach Katastrophenfällen in einem IBM Support Center.Übersetzt und für den deutschsprachigen Markt überarbeitet von Joachim Riener.

Sind Sie ausreichend auf den Fall vorbereitet, dass Ihr System von einer Katastrophe heimgesucht wird? Simple Geschehnisse können selbst das erfolgreichste Unternehmen in die Knie zwingen. Als Verantwortlicher in einem Support Center, der sich auf Wiederanlaufsituationen im Katastrophenfall spezialisiert hat, bat ich bei der Vorbereitung dieses Artikels einige andere Spezialisten um ihre Beiträge. Ihre Antworten habe ich teilweise mit einfließen lassen. Die hier gegebenen Informationen versorgen Sie mit dem grundsätzlich erforderlichen Wissen, um nach einer Katastrophensituation möglichst schnell wieder betriebsbereit zu sein.

Recovery-Planung

Es ist erheblich besser, bereits jetzt die Zeit für eine Katastrophenfallplanung aufzuwenden, als während eines tatsächlich eingetretenen Katastrophenfalls wertvolle Zeit hierfür zu verschwenden. Die fünf „W“-Fragen beschreiben die wesentlichen Schritte auf dem Weg zu einer Wiederherstellung im Katastrophenfall.

Warum?

Sobald die Ursache eines Problems erkannt ist, lässt es sich gewöhnlich schnell lösen.

Stellen Sie beispielsweise eines Morgens bei Ihrem Eintreffen fest, dass das System nicht läuft, werden Sie vermutlich nicht gleich von einer Katastrophe ausgehen. Stattdessen werden Sie wissen wollen, was den Stillstand verursacht hat. Ich habe einmal von einem Kunden eine Geschichte über einen nächtlichen Systemstillstand gehört, bei der sich letztlich herausstellte, dass eine Reinigungskraft den Stecker gezogen hatte, weil sie eine Steckdose für den Staubsauger benötigte. In diesem Fall musste nur der Stecker wieder in die Steckdose gesteckt und ein IPL durchgeführt werden.

Es kann auch vorkommen, dass Sie annehmen, es läge ein schwerwiegendes Problem vor, weil alle Benutzer beim Versuch, sich am System anzumelden, eine Fehlermeldung erhalten. Die Ursache könnte hier ein einfaches Berechtigungsproblem sein. Ist die Ursache für ein Problem erkannt oder es ist nicht mehr möglich, noch weitere Zeit für die Suche nach der Problemursache aufzuwenden, ist der Punkt für eine Entscheidung gekommen, was zurückgespeichert werden muss.

Was?

Die Entscheidung darüber, was zurückgespeichert werden muss, ist vermutlich der wichtigste Recovery-Schritt. Die Antwort bedingt die weitere Vorgehensweise.

Zuerst einmal muss ermittelt werden, ob es sich bei den Daten um kritische Benutzerdaten, nicht kritische Benutzerdaten oder Systemdaten handelt. Abhängig von der Datenmenge kann die Rückspeicherung möglicherweise bei aktivem System, im eingeschränkten Status oder auf einem anderen System erfolgen. Dies sollte vor der Recovery und im Grunde bereits bei der Backup-Planung festgelegt werden.

Fertigen Sie eine Aufstellung Ihrer kritischen Daten an und ermitteln Sie für den Fall, dass diese Daten fehlen, die jeweiligen Auswirkungen auf den Geschäftsablauf. Vermerken Sie, welchem Backup-Schritt die einzelnen Datenbestände zuzuordnen sind. Dies führt zu der Frage, wann eine Recovery erfolgen soll.

Wann?

Ist eine Rückspeicherung bei aktivem System möglich, kann unmittelbar damit begonnen werden. Müssen für eine Rückspeicherung andere Teile der Produktion beendet werden, ist zuerst eine Entscheidung erforderlich, ob es wichtiger ist, die Daten sofort zurückzuspeichern oder ob gewartet werden kann, bis die Produktion einen bestimmten Punkt erreicht hat, an dem sie gestoppt werden kann. Liegt ein vollständiger Systemverlust wegen eines Hardware- oder Software-Fehlers vor, sollte eine Recovery unmittelbar in Angriff genommen werden.

Wo?

Erfolgt die Wiederherstellung auf demselben System, hat sich die Frage nach dem „Wo“ eigentlich bereits erledigt. Trotzdem sollte immer auch für die Möglichkeit vorgesorgt werden, dass eine Wiederherstellung auf dem gleichen System nicht mehr vorgenommen werden kann. Das ist der Punkt, an dem eine Menge Zeit für Recherchen aufgewandt werden muss.

Legen Sie fest, was verfügbar sein muss, um gegebenenfalls auf einem anderen System eine Wiederherstellung durchführen zu können. Das kann ein Backup-System oder eine Backup-Partition im gleichen Raum, ein Server in einem getrennten Raum oder ein anderes System an einem fernen Ort sein. Im Falle einer Naturkatastrophe könnten möglicherweise alle Systeme in einem räumlich begrenzten Umfeld betroffen sein. Aus diesem Grunde haben viele Unternehmen für den Fall größerer Katastrophen Wiederherstellungsmöglichkeiten an einem fernen Ort eingeplant.

Wie lässt sich feststellen, welche Ausweichlokation geeignet ist? Wie bei fast allen Fragen, die Technologien betreffen, fallen die Antworten von Fall zu Fall oft unterschiedlich aus. Berücksichtigen Sie Ihre speziellen Anforderungen:

  • Reisezeiten
  • Anforderungen an die Stromversorgung
  • Hardware-Kompatibilität
  • Sicherheitsanforderungen
  • Systemverfügbarkeit
  • technische Unterstützung
  • Nutzungskosten

Wer?

Sind die Entscheidungen zu allen zuvor aufgeführten Faktoren getroffen, muss festgelegt werden, wer die Wiederherstellung vornehmen soll. Hier sollte man sich für die Person entscheiden, die über die erforderlichen Berechtigungen und die größte Erfahrung mit der Durchführung von Systemwiederherstellungen verfügt. Überdies sollte eine Liste von mehreren Personen vorliegen, die einspringen können, falls die ursprünglich ausgewählte Person aus welchen Gründen auch immer nicht verfügbar sein sollte.

Verfügt man nicht über einen Mitarbeiterstab mit guten technischen Skills (aber selbst dann, wenn dies so ist), erscheint es ratsam, sich bereits im Vorfeld einen Spezialisten für Systemwiederherstellungen zu suchen und auszuwählen. Gleichgültig für wen auch immer Sie sich entscheiden, es ist äußerst wichtig, dass alle involvierten Parteien dieselben sind, die die Wiederherstellungstestläufe durchführen.

Disaster Recovery Tests

Auf meine Frage an Save/Restore-Teamkollegen nach der wichtigsten Empfehlung bezüglich einer Wiederherstellung im Katastrophenfall antworteten 75 Prozent: „Tests in einem Szenario, das identisch mit einem anzunehmenden Ernstfall ist.“

Stellen Sie sicher, dass diese Forderung in vollem Umfang erfüllt wird. Das bedeutet, dass dieselben Personen die Tests durchführen, die auch im Ernstfall mit der Recovery betraut wären. Verwenden Sie nicht nur ein beliebiges Band mit einer vollständigen Systemsicherung, sondern testen Sie auch mit all Ihren Voll-Sicherungen – der monatlichen, wöchentlichen und täglichen Sicherung.

Ermitteln Sie den Zeitpunkt, an dem ein Systemausfall die größten Komplikationen in Ihrem Betriebsablauf erzeugen würde. Dies ist exakt der Punkt, an dem Ihre Wiederherstellungstests aufsetzen sollten. In vielen Fällen werden in Ausweichlokationen Systeme vorgeladen oder temporäre Systeme zur Verfügung gestellt, die von dem System abweichen, das in einer echten Katastrophensituation zur Verfügung stünde. Stellen Sie sicher, dass das Zielsystem exakt so konfiguriert ist, wie es im Szenario eines echten Katastrophenfalls wäre. Ich kann nur davor warnen, auf dem Zielsystem irgendetwas außer dem LIC vorzuladen.

Tests für die Wiederherstellung im Ernstfall sind die große Chance, um sicherzustellen, dass auch wirklich alles korrekt abläuft. Haben Sie Ihre Recovery-Tests bereits durchgeführt und nehmen danach wesentliche Veränderungen am System oder in der Wiederherstellungslokation vor, sollten die Tests erneut durchgeführt werden. Treten während der Recovery Probleme auf, notieren und beseitigen Sie sie und passen den Recovery-Prozess entsprechend an. Auf diese Weise wird der Prozess bei jeder Durchführung besser und schneller.

Die meisten Anrufe, die wir in unserem Support-Center erhalten, betreffen Probleme, die bei Kunden während ihrer Recovery-Tests auftreten. Und all das sind Anrufe, die in einem echten Katastrophenfall dann nicht mehr getätigt werden müssen.

 

Schlagworte: , , , , , , , , , , , , , , , , , , , , , , , ,

Schreibe einen Kommentar

Sie müssen eingeloggt sein, um einen Kommentar schreiben.