Notfallwiederherstellungspläne (Disaster Recovery Plans, DRPs) werden in der IT-Branche allzu oft vernachlässigt – sie wurden einst erstellt, weil man dem Unternehmen nachweisen musste, dass ein solcher Plan vorhanden war, wurden aber nie aktualisiert, überarbeitet oder geprüft. Da sie viele Jahre lang eher als reine Pflichtübung betrachtet wurden, müssen Unternehmen, deren Betriebsabläufe heute auf IT-Systemen basieren, solche Protokolle nun überarbeiten und gründlich testen, wenn sie im Falle eines katastrophalen oder betriebsstörenden IT-Vorfalls wirklich überleben wollen.
In der Vergangenheit konzentrierten sich Notfallpläne (DRPs) in der Regel auf Störungen im Serverraum oder – je nach geografischem Standort – auf Wetterereignisse, die zu Systemausfällen führten. Angesichts der heutigen enormen Abhängigkeit von IT-Systemen gibt es jedoch wesentlich mehr potenzielle Vorfälle, die berücksichtigt und eingeplant werden müssen, darunter unter anderem:
- Stromausfall
- Internetausfall
- Diebstahl von Ausrüstung
- Ausfall von Geräten bei Umgebungstemperatur
- Datenschutzverletzung oder Sicherheitsrisiko.
In einem Rechenzentrum können zahlreiche Ereignisse eintreten, und Unternehmen müssen gut vorbereitet und gut ausgerüstet sein, um solche Situationen schnell zu bewältigen.
Wie sollte ein Notfallwiederherstellungsplan aussehen?
Ein DRP sollte ein Dokument sein, das die strategischen Leitlinien eines Unternehmens hinsichtlich der Prozesse darlegt, die zur Bewältigung schwerwiegender Vorfälle oder Störungen seiner IT-Systeme eingerichtet wurden. Dazu können Stromausfälle, Datenverluste oder Verbindungsstörungen gehören; häufig umfasst es auch Pläne und Verfahren zur Inbetriebnahme eines physisch an einem anderen Standort befindlichen IT-Standorts, um den Betrieb wiederherzustellen.
DRPs sind Bestandteil des Business-Continuity-Plans (BC-Plan) eines Unternehmens. Unter Business-Continuity-Planung versteht man den Gesamtansatz, der darauf abzielt, den Betrieb einer gesamten Organisation während eines Vorfalls aufrechtzuerhalten. Der DRP ist der taktische Plan, der speziell darauf ausgerichtet ist, den Betrieb der IT-Infrastruktur wiederherzustellen, damit diese den Betriebszustand vor dem Vorfall erreicht.
Ziele und Vorgaben eines Notfallwiederherstellungsplans
Zwar kann keine Organisation jemals vollständig ausschließen, dass es zu Störungen oder negativen Ereignissen kommt, doch kann sie entscheiden, wie sie darauf reagiert, falls es doch dazu kommt.
Ein DRP verfolgt einen proaktiven Ansatz beim Bedrohungsmanagement und kann sicherstellen, dass alle Beteiligten wissen, wie sie reagieren und was sie tun müssen, sollte der schlimmste Fall eintreten. Zu seinen Zielen gehören:
- Das Risiko negativer Ereignisse minimieren
- Maximierung der Verfügbarkeit von Systemen und Diensten für Endnutzer
- Engagement für die Sicherheit der Nutzer unter Beweis stellen
- Einhaltung der gesetzlichen und akkreditierungsbezogenen Verpflichtungen
- Wiederherstellung und Aufrechterhaltung eines unübertroffenen Serviceniveaus für unsere Kunden.
Was Sie in Ihrem Notfallwiederherstellungsplan nicht vergessen sollten
Zwar gibt es für Unternehmen vielleicht keinen DRP, der für alle gleichermaßen geeignet ist, doch gibt es einige Elemente, die bei der Erstellung und Umsetzung des Plans leicht übersehen oder sogar gänzlich vergessen werden können. Aufgrund der langjährigen Erfahrung von Procurri haben wir festgestellt, dass viele der folgenden Punkte falsch eingeschätzt, schlecht gehandhabt oder gänzlich vernachlässigt wurden – daher empfehlen unsere Experten, die folgenden Punkte noch einmal gründlich zu überprüfen und zu überarbeiten.
Abstimmung mit Elementen der Geschäftskontinuitätsplanung
Ein DRP ist zwar zweifellos ein wichtiges Dokument, doch darf nicht vergessen werden, dass es Teil eines größeren und umfassenderen Plans ist – des Business-Continuity-Plans. Alle am Geschäftskontinuitätsplan beteiligten Parteien müssen verstehen, wie der DRP funktioniert und wie und wann er in Kraft gesetzt und umgesetzt werden sollte. Sie müssen zudem einen guten Überblick über ihre eigenen Verantwortlichkeiten im Rahmen des Plans sowie über alle Aufgaben im Bereich der Prävention haben – bevor der DRP zum Einsatz kommt –, um die Wahrscheinlichkeit zu minimieren, dass er jemals angewendet werden muss.
Regelmäßige Bewertung der Ausfalltoleranz
Es ist unerlässlich, dass ein Unternehmen die Erwartungen und die Toleranzschwelle dafür versteht, was während eines kritischen Ereignisses aufrechterhalten werden kann. Dies variiert von Organisation zu Organisation, da Unternehmen, die auf Echtzeit-IT-Systeme angewiesen sind, bereits bei einer Ausfallzeit von nur wenigen Sekunden erhebliche Folgen erleiden können. Das bedeutet, dass solche Unternehmen erhebliche Investitionen und Vorbereitungen in Wiederherstellungsprozesse tätigen müssen, da bereits wenige Sekunden den Fortbestand der gesamten Organisation gefährden könnten. Bei kleineren Unternehmen, die weniger auf IT angewiesen sind, ist möglicherweise auch ein etwas längerer Ausfall verkraftbar, sodass geringere Investitionen und Vorbereitungen ausreichend sein können.
Bei den meisten Unternehmen schwanken die Anforderungen entweder saisonal oder im Zuge ihres Wachstums und ihrer Entwicklung. Daher ist es von entscheidender Bedeutung, dass ein Unternehmen regelmäßig seine Ausfalltoleranz bewertet, um die sich ändernden Anforderungen zu erfassen, denen ein Notfallplan (DRP) möglicherweise gerecht werden muss.
Bestandsaufnahme der vorhandenen Funktionen
Um bestmöglich zu verstehen, wie auf ein Katastrophenereignis zu reagieren ist, muss ein Unternehmen zunächst wissen, wie sein normaler Geschäftsbetrieb aussieht und was am ehesten passieren wird. Die relevanten Informationen müssen zusammengestellt werden:
- Gibt es innerhalb der aktuellen IT-Konfiguration bereits Backup-Systeme, die im Falle eines unerwarteten Ereignisses zum Einsatz kommen würden?
- Was wird höchstwahrscheinlich passieren, wenn ein System ausfällt? Welche Auswirkungen hätte dies auf den Endnutzer? Welche Auswirkungen hätte dies auf den Endnutzer?
- Was passiert, wenn es bei einer Komponente des Rechenzentrums des Unternehmens zu einem Ausfall oder einer Störung kommt?
- Wie sieht der Normalbetrieb (BAU) derzeit für alle Systeme aus, und welche Abweichungen sind akzeptabel, damit der Betrieb weiterhin reibungslos aufrechterhalten werden kann?
Schwachstellen identifizieren
Um bestmöglich einschätzen zu können, welche Bereiche eines IT-Systems im Falle eines kritischen Vorfalls möglicherweise am meisten Unterstützung benötigen, müssen die Mitarbeiter, die in diesem System arbeiten oder daran mitwirken, die wahrscheinlichen „Schwachstellen“ und Anfälligkeiten des bestehenden Systems kennen. Zu den häufigen Schwachstellen zählen:
- Fehler, die bei der ursprünglichen Planung des Rechenzentrums und dessen Konfiguration gemacht wurden
- Belastung der Energieressourcen
- Störungen in der Stromversorgung
- Störungen bei der Temperaturregelung.
Ziele und Vorgaben festlegen
Ein DRP kann nur dann als erfolgreich bezeichnet werden, wenn es konkrete Ziele und Vorgaben gibt, die erreicht werden müssen. Dazu gehören:
- RTO (Recovery Time Objective) – die Zeit, die das Unternehmen benötigt, um alle Anwendungen wieder auf das „BAU“-Betriebsniveau vor dem Auftreten eines Vorfalls zurückzuführen
- RPO (Recovery Point Objective) – das Alter der Dateien, die wiederhergestellt werden müssen, um den „BAU“-Betrieb vor dem Eintreten eines Vorfalls wieder aufzunehmen
- Wie sieht Erfolg für das Unternehmen im Bereich der Notfallwiederherstellung aus?
- Gibt es Systembereiche, deren Wiederherstellung länger dauern könnte, ohne dass dies Auswirkungen auf den Service für die Endnutzer hätte?
Risiken priorisieren
Wenn die bestehende Systemaufbau und -konfiguration des Unternehmens intern bereits gut bekannt sind, ist es möglich, dass auch die damit verbundenen Risiken bereits bekannt sind. Eine Risikobewertung (die entweder vollständig neu durchgeführt wird oder auf der Befragung von Mitarbeitern mit einschlägigem Wissen basiert) kann Folgendes aufdecken:
- Was sind die wahrscheinlichsten Risiken, denen das Unternehmen ausgesetzt ist?
- Wie wahrscheinlich ist es, dass das jeweilige Risiko tatsächlich eintritt?
- Welche Risiken hätten die größten Auswirkungen, sollten sie eintreten?
Auf dieser Grundlage lassen sich Risiken priorisieren und der Notfallplan (DRP) erstellen, um das entscheidende Gleichgewicht zwischen den Ereignissen mit der höchsten Eintrittswahrscheinlichkeit und denen mit den gravierendsten Auswirkungen zu gewährleisten. So kann sichergestellt werden, dass Investitionen und Planungen so sinnvoll wie möglich erfolgen.
Den zuständigen Personen Rollen zuweisen
Ein DRP muss klar definierte Rollen und Zuständigkeiten für alle Beteiligten enthalten. Dazu gehören die Leitung der einzelnen Bereiche, klare Berichtswege sowie Vertretungsregelungen für den Fall, dass wichtige Mitarbeiter abwesend sind. Darüber hinaus sollten alle Beteiligten wissen, wie sie während eines Vorfalls miteinander kommunizieren müssen.
Externe Standorte für die Geschäftskontinuität definieren
Im Falle einer Katastrophe verlagern viele Unternehmen ihre operativen Systeme an einen anderen physischen Standort, um sicherzustellen, dass es am Ausweichstandort nicht zu Betriebsunterbrechungen kommt. Weltweit gibt es eine Vielzahl solcher Standorte, auf die sowohl aus der Ferne als auch vor Ort zugegriffen werden kann, um den Betrieb aufrechtzuerhalten. Unternehmen müssen entscheiden, ob und wo solche Standorte eingerichtet werden sollen, und vertragliche Vereinbarungen mit den Betreibern dieser Einrichtungen treffen, um sie bei Bedarf nutzen zu können.
Üben und testen
Die tatsächliche Umsetzung des DRP sollte regelmäßig gründlich getestet und geübt werden, sowohl vor Ort als auch außerhalb des Unternehmens. Durch regelmäßige Tests dieses Protokolls lassen sich neue oder sich abzeichnende Schwachstellen erkennen und Stärken ausbauen und verbessern. Entscheidet sich ein Unternehmen für eine externe Business-Continuity-Einrichtung eines Drittanbieters für die Notfallwiederherstellung, sollte diese mindestens einmal jährlich von einem Team besucht werden, um sicherzustellen, dass alle Beteiligten wissen, wie der Ablauf funktioniert und welchen Beitrag sie mit ihrer jeweiligen Rolle leisten.
Brauchen Sie Hilfe von den Experten?
Procurri steht Ihnen mit einem festen Ansprechpartner als Projektmanager, spezialisierten Technikern, Support rund um die Uhr an 365 Tagen im Jahr sowie dem weltweit größten Lagerbestand an Hardware zur Seite. Unsere Experten haben bereits dazu beigetragen, den Betrieb von Unternehmen selbst nach den verheerendsten unerwarteten Ereignissen wiederherzustellen, und wir können auch Ihrem Unternehmen dabei helfen, sollte das Schlimmste eintreten. Kontaktieren Sie uns noch heute für ein Gespräch, damit wir gemeinsam Ihren Geschäftsbetrieb schützen können.