Hamburg, Stellingen - 19. Juli 2018 - Sebastian Evers
Die heutigen RAID Lösungen haben nur noch wenig mit dem Grundkonzept RAID (Redundant Array of Inexpensive Disks) von vor 30 Jahren gemein. Durch Storage-Virtualisierung, Storage Area Network, Wide-Striping, Tiering und Erasure-Coding hat sich RAID immer weiter entwickelt und immer neuere Technologien eingeflößt bekommen. Die Hersteller haben sich an die Erfordernisse ihrer Kunden angepasst, ohne dass diese von den Änderungen im Hintergrund etwas mitbekommen haben - die Bezeichnung RAID hält sich aber nach wie vor hartnäckig. Spricht man von RAID, dann hat so ziemlich jeder eine Vorstellung davon, was gemeint ist.
Das Konzept einer "ganzen Festplatte", der damalige Anspruch an ausreichend Kapazität, hat sich bis heute gewandelt, ist dezentralisierten Speicheranforderungen gewichen und ist nach wie vor im Wandel. Die steife RAID-Formel, wie wir sie heute kennen, wird in nicht allzu ferner Zukunft überholt worden sein. Allerdings erfreuen sich klassische RAID-Level derzeit noch immer großer Beliebtheit und Verbreitung.
p=Parität
Eine der beliebtesten und am häufigsten im Einsatz befindlichen RAID-Level ist RAID 5. Durch kostengünstige NAS Geräte finden sich RAID 5 Server auch in privater Umgebung wieder, um Familienfotos oder Bilder der Reise, Film- und Musikbibliotheken zu sichern. Sagte ich sichern? Ja, sagte ich. Wie ich schon in meinem vorhergehenden Blogbeitrag zum Thema Datensicherung und Backup ausführte, handelt es sich bei einem RAID 5 nicht um eine Datensicherung und wenn, dann um keine besonders effektive.
Ein RAID 5 soll im Kern eine erhöhte Ausfallsicherheit gewährleisten. Das ist allem für die IT-Strukturen von Unternehmen von immenser Wichtigkeit. Der Ausfall eines laufenden Servers, mehrerer virtueller Maschinen, Datenbanken oder des Online-Shops wäre fatal. Durch ein RAID 5, bei dem eine Festplatte ausfallen darf ohne das das RAID offline geht, sinkt das Risiko plötzlich nur noch untätig herum sitzen zu können, bis alles wieder läuft. Meldet der RAID-Controller eine defekte Festplatte, so tauscht man diese ganz einfach aus und startet ein Rebuild.
Durch des Ausfall einer Festplatte tritt bei RAID 5 noch kein Datenverlust auf. Durch die per XOR berechnete Parity (Parität), die wird über alle involvierten Festplatten (mindestens drei) hinweg geschrieben, kann die Ausfallsicherheit des RAID wiederhergestellt werden - selbst im laufenden Betrieb. Im Gegensatz zu einem RAID 1, bei dem alle Daten auf die neue Festplatte kopiert werden, müssen bei einem RAID 5 alle vorhandenen Daten der verbleibenden Festplatten gelesen werden, um die Daten per XOR zurück zu rechnen.
Fallen allerdings zwei Festplatten oder mehr zugleich aus oder eine zweite Festplatte während des Rebuild-Prozesses, dann ist das RAID 5 offline und Datenverlust liegt vor. In einem Unternehmen bedeutet das im besten Fall ein wenig Zeitverlust. Defekte Festplatten ersetzen, Server neu aufsetzen und die Daten vom Backup wiederherstellen. Doch was tut man, wenn man das RAID 5 in gutem Glauben als Datensicherung betrachtet wurde?
P=Parität 1, Q=Parität 2
Ein RAID 6, die nächste Evolutionsstufe des allseits beliebten RAID 5, erlaubt den Ausfall zweier Festplatten, bevor es zu Datenverlust kommen kann. Eine RAID 6 Konfiguration benötigt mindestens vier Festplatten. Ein RAID 6 System arbeitet mit einer doppelten Paritätsinformation, für deren generierende Berechnung es wiederum verschiedene mathematische Möglichkeiten mit fehlerkorrigierenden Kodierungsverfahren (z. B. Reed-Solomon-Code) sowie orthogonaler Paritätsprüfung gibt. In vielen Unternehmen hat RAID 6 das RAID 5 bereits seit Jahren abgelöst. Die wesentliche höhere Ausfallsicherheit gegenüber RAID 5 minimiert das Risiko eines nicht mehr erreichbaren RAID Servers.
Die Wahrscheinlichkeit, dass zwei defekte Festplatten zum exakt selben Zeitpunkt auftreten ist nicht hoch - aber es kommt vor. In den meisten Fällen fallen RAID 6 Systeme durch beschädigte Datenträger dann aus, wenn eine Festplatte schon länger defekt ist und keine Mitteilung vom RAID-Controller übermittelt oder der Fehler schlichtweg nicht bemerkt wurde. Das RAID Server wochen- oder monatelang, wenn nicht sogar Jahre, im "degraded" Modus laufen kommt andauernd vor.
Degraded bedeutet eben auch nur, dass das RAID nach wie vor funktionstüchtig ist, aber nicht in der optimalen Konstellation betrieben wird. Dies kann sich unter anderem durch Einbrüche der Performance bemerkbar machen, wenn dauerhaft zwei Festplatten im RAID 6 fehlen. Ein ausgefallenes Array-Mitglied im RAID 6 wird mit der Statusmeldung RAID suboptimal ausgegeben. Das RAID 6 befindet sich zwar noch nicht im degraded Status, wenn eine Festplatte defekt ist (DISK failed, DRIVE missing), ist aber auch nicht mehr optimal. Fallen dann noch weitere Festplatten aus, dann ist das RAID 6 offline.
Wie schon RAID 5 zuvor, ist auch ein RAID 6 nicht der heilige Gral der Datensicherheit. Für die Sicherheit der Daten müssen alle Zahnräder der IT-Struktur ineinander greifen, eine sinnvolle Backup-Strategie sollte definitiv existieren. Ein RAID 6 mag eine erhöhte Ausfallsicherheit bieten, doch ist Ausfallsicherheit nicht gleich Ausfallschutz. Verschiedene Faktoren können für den Ausfall eines RAID 6 Server verantwortlich sein und dabei muss es sich nicht immer um defekte Festplatten drehen.
In vielen Fällen kann auch der RAID-Controller versagen und Festplatten als fehlerhaft ausgeben, obwohl diese intakt sind oder durch eine Überspannung wird der Controller beschädigt. Manche Fehler finden gar nicht unbedingt auf der physischen Ebene statt, sondern spielen sich auf logischer Ebene, beispielsweise im Host-Dateisystem, den virtuellen Maschinen, iSCSIs oder Datenbanken ab.
Die versehentliche Löschung von Daten auf RAID Volumen ist ein häufiger Anwenderfehler, in nicht seltenen Fällen kombiniert mit der Rücksicherung einer fehlerhaften Datensicherung oder dem Versuch, mit Datenrettungssoftware selbst den Fehler zu bereinigen. Die Auswirkungen solcher Szenarien sind überaus facettenreich und häufig fatal.
Auch das "online forcen", also das Erzwingen der Wiedereinbindung, der Festplatten durch den RAID-Controller kann sich negativ auswirken, wenn durch dadurch schon länger ausgefallene Festplatten in den Rebuild-Prozess mit einbezogen werden und dadurch ein fatales Rebuilding stattfindet. Die Schäden die dadurch verursacht werden können, lassen sich auch durch eine professionelle RAID 6 Datenrettung nur bedingt kompensieren.