Datenverlust durch Festplattenausfall im RAID5
Sie haben Fragen? Rufen Sie uns kostenfrei an: ☎ 0800 55 00 999
OnlineanfrageAuch ein Festplattenverbund erspart nicht immer den Datenretter
Autor: Manfred Klein:
SearchStorage.de
19.10.2007
Acht Radioprogramme und das NDR-Fernsehen versorgen die Menschen in Hamburg, Mecklenburg-Vorpommern, Niedersachsen und Schleswig-Holstein mit qualitativ anspruchsvollen Sendungen. Damit der öffentlich-rechtliche Rundfunk seine Aufgaben erfüllen kann, ist eine umfangreiche IT vonnöten, die vom sendereigenen Systemservice betreut wird. Im September 2006 kam es zu einem von jedem Administrator gefürchteten Ereignis: Ein RAID fiel aus, und 1,2 Terabyte Daten gingen verloren.
Alle Sendungen des Norddeutschen Rundfunks werden auf Magnetbändern archiviert. Seit einigen Jahren wird eine steigende Zahl an Sendungen zusätzlich in einem sogenannten LoRes-Format (MPEG1 mit niedriger Auflösung, lediglich Sichtungsqualität) auf Servern gespeichert, da so die Recherche im Archivmaterial wesentlich komfortabler ist.
Wenn ein Redakteur zum Beispiel für einen Bericht zur Agrarpolitik Archivaufnahmen von Schwarzbunten auf friesischen Weiden, Viehtransporten und einer Bauernkundgebung zur Bebilderung des gesprochenen Textes benötigt, kann er von seinem Arbeitsplatz aus das digitale Vorschauarchiv sichten und vorab sehr gezielt entscheiden, welches Material aus dem Archiv für einen neuen Beitrag angefordert werden muss. Dieses Verfahren bedeutet eine enorme Zeitersparnis.
Die Festplatten der Server sind als RAID (Level 5) organisiert. Da bei einem RAID-5 bekanntlich eine Festplatte ausfallen kann, und die Daten dennoch verfügbar bleiben, hatte sich diese Speichermethode für den schnellen Zugriff auf das digitale Videogedächtnis des Senders bewährt.
Als im September 2006 das digitale Videoarchiv plötzlich ausfiel, zeigte sich, dass der unwahrscheinliche Fall eingetreten war, dass zwei der vier Festplatten eines Servers gleichzeitig ausgefallen waren. Das Vorschauarchiv war für fast vier Monate zerstört. Die einzige Möglichkeit, es wieder zu erlangen, wäre gewesen, es manuell aus den Aufzeichnungsbändern neu zu erstellen – eine unabsehbare Sisyphusarbeit.
Der NDR-Systemservice beschloss daher den Versuch einer Datenrettung. „Die erste Firma, mit der wir Kontakt aufnahmen, sah sich nicht in der Lage, die Daten zu rekonstruieren, weshalb wir im zweiten Versuch an die Firma CBL Datenrettung in Kaiserslautern herangetreten sind, die erfreulicherweise eine kostenlose Diagnose anbietet,“ erinnert sich Detlef Kopp, Gruppenleiter im Systemservice des NDR.
So trafen kurze Zeit später vier SCSI-Festplatten mit je 300 Gigabyte Speichervolumen im Labor von CBL ein. CBL hat eine eigene Methode zur Rekonstruktion von RAIDs entwickelt, weshalb RAID-Controller oder gar der komplette Server nicht benötigt werden, lediglich die ausgefallenen und die funktionsbereiten Platten des Arrays. Der Kunde kann sein RAID-System dadurch mit neuen Festplatten wieder aufbauen, während die Datenrettung läuft.
Jeder Datenträger versagt irgendwann. Wenn Datenrettung als Option in der Notfallplanung vorgesehen ist, können sich Datenrettungslabore ohne Verzögerung an die Arbeit machen – die Erfolgsquoten liegen bei über 85 Prozent. Jeder Datenträger versagt irgendwann. Wenn Datenrettung als Option in der Notfallplanung vorgesehen ist, können sich Datenrettungslabore ohne Verzögerung an die Arbeit machen – die Erfolgsquoten liegen bei über 85 Prozent.
Die erste Maßnahme des Datenrettungslabors war die Spiegelung der beiden intakten Platten. Es ist ein Grundprinzip der Datenrettung, dass niemals auf den Originaldatenträgern gearbeitet wird, sondern immer mit exakt sektorenweise durchgeführten Kopien nach den Standards der Computerforensik. „Bei einem zerstörten RAID-Verbund müssen zunächst alle Platten gespiegelt und die Daten auf einem Datenträger zusammengeführt werden, bevor man versuchen kann, der Logik des RAID nachzugehen und aus den verteilten Rohdaten lesbare Dateien zu rekonstruieren“, erklärt Gerlinde Wolf, die bei CBL dieses Projekt betreute.
„Die große Datenmenge machte die Spiegelung zu einem langwierigen Unterfangen, sodass wir in diesem Fall dem Kunden erst nach drei Tagen Diagnosebericht und Kostenvoranschlag liefern konnten. Kurze Zeit darauf wurde der Kostenvoranschlag durch den NDR genehmigt und die Rekonstruktion begann.“
Die Diagnose der Festplattenelektronik ergab, dass die Platinen der beiden defekten Festplatten intakt waren, der Fehler musste also im Inneren der Platten liegen. Beide wurden in einem Class100-Reinraum geöffnet. Es zeigte sich, dass bei beiden Platten die Schreib-/Leseköpfe erfolglos versuchten, Daten zu lesen. Die Köpfe wurden ausgebaut und verschiedene Tests und Messverfahren zeigten, dass die Köpfe selbst nicht beschädigt waren und auch die Oberfläche der Magnetplatten intakt war – es handelte sich also nicht um den gefürchteten Headcrash.
Platten und Köpfe sind von der Produktion her bei jeder individuellen Platte sehr genau aufeinander eingespielt, und selbst zwischen Platten derselben Charge gibt es minimale Unterschiede. Die individuellen herstellungsbedingten Eigenschaften der Festplatte sind auf der Servo-Spur hinterlegt – unter anderem 30 bis 38 Parameter für die Steuerung der Schreib-/Leseköpfe – sowie die unverzichtbaren Informationen der P-List und G-List (Primary Defects List, Grown Defects List). Die Chancen, eine defekte Platte wieder in den „Ready“-Zustand zu versetzen sind deshalb am Größten, wenn man das mit den Original-Schreib-/Leseköpfen erreichen kann, und im Fall der beiden SCSI-Festplatten war dieser glückliche Umstand gegeben.
Die Köpfe konnten bei beiden Festplatten weiterverwendet werden. Wieder eingebaut und neu justiert konnten sie dazu gebracht werden, Daten auszulesen. Eine große Zahl defekter Sektoren erschwerte zwar die Arbeit, aber letztlich gelang es, beide Platten komplett zu kopieren.
Sind die Rohdaten einer RAID-Festpatte gerettet, kommt die zweite Hürde. In einem Prozess der „Un-RAID“ genannt wird, müssen die vom RAID-Controller über die Platten verteilten Daten wieder zu lesbaren Dateien zusammengefügt werden. CBL Datenrettung hat dazu ein proprietäres Programm namens OMNIRAID entwickelt.
Durch Low-Level-Programmierung ist es unabhängig von den im jeweiligen RAID-Array eingesetzten Controllern, der Schematik oder dem Codierungssystem. Selbst mithilfe dieses Programms ist es ein langwieriger Prozess, 1,2 Terabyte zu rekonstruieren, aber eine Woche nach Auftragserteilung konnte CBL dem NDR-Systemservice die erlösende Nachricht geben: „Wir haben Ihre Daten.“
Das Labor richtete einen FTP-Zugang ein, damit die NDR-Techniker die Dateilisten überprüfen konnten. Eine Datenrettung gilt bei CBL nur dann als erfolgreich ausgeführt, wenn die vom Kunden zuvor benannten Zieldaten wiederhergestellt werden konnten – nur in diesem Fall wird eine Rechnung gestellt.
„Die Daten sind vollständig wiederhergestellt und nachdem wir das Vorschauarchiv wieder in Betrieb genommen hatten, waren, bis auf wenige Tage, alle archivierten Sendungen wieder recherchierbar. Wir sind mit dem Service von CBL Datenrettung sehr zufrieden“, bilanziert Detlef Kopp die Arbeit der CBL.
Redakteur: Nico Litzel
Search Storage.de druckt freundlicherweise neugestalteten Datenrettungsbeitrag.
Zertifiziert nach ISO 9001:2015