Schnelle Enterprise Storage RAID Datenrettung bei Attingo 0-24×7

Letztes Wochenende kontaktierte uns der IT-Leiter eines österreichischen Konzerns: Ein RAID-System (Level 6) mit 64 TB Brutto (52 TB Netto, da eine Spare-Festplatte) ist ausgefallen. Ein Datenträger bereits vor längerer Zeit und nun plötzlich zwei weitere Datenträger. Die Spare-Festplatte dürfte nicht korrekt funktioniert haben.
Die Daten (unter anderem technische Zeichnungen aktueller Projekte) werden sehr dringend benötigt, da der Betrieb sonst teilweise stillstehen würde. Etwa 10 TB von aktuellen Dokumenten werden benötigt, da ein neuer Ordner bei der Datensicherung noch nicht eingerichtet war.

Wir informierten ihn, dass eine Datenrettung im High-Priority-Verfahren (da arbeiten unsere Techniker rund um die Uhr, auch am Wochenende) vermutlich zwischen 10 und 40 Stunden in Anspruch nehmen wird, primär abhängig von den Hardwareschäden an den Festplatten sowie an möglichen durchgeführten Rettungsversuchen der Konzern-IT.

Auch diesmal kam wieder die Frage: Wie können wir die Daten bei einer solch riesigen Kapazität so schnell retten?

Zuallererst erstellen wir mehrere Sätze von 1:1 Kopien aller Datenträger. Davor werden defekte Datenträger im Reinraum repariert (zum Beispiel Tausch der Schreib-/Leseköpfe, transplantieren der Magnetscheiben, etc.). Wir arbeiten ausschließlich mit 1:1 Kopien. Wir haben etwa 30 Arbeitsplätze verfügbar, an denen mehrere Techniker parallel die Kopien erstellen können. Sprich es ist wie mit dem Knödel beim Kochen: Wenn ein Knödel 10 Minuten kocht, wie lange kochen 10 Knödel? Auch in etwa 10 Minuten. Sprich der Kopiervorgang von 16 Festplatten benötigt im Idealfall genau so lange wie der Kopiervorgang von einer Festplatte, wohlgemerkt Hardwareschäden (zum Beispiel Oberflächenschäden) ausgenommen.

Danach können wir mit von unserer Forschungs- und Entwicklungsabteilung selbst entwickelter Software den RAID-Verbund virtuell simulieren. Die Software enthält die Algorithmen von nahezu allen aktuellen und jemals am Markt befundenen RAID-Controllern: Von Server-Systemen bis hin zu NAS, SAN und Enterprise-Storages.

Im nächsten Schritt muss der Ausfallhergang rekonstruiert werden. Welche Festplatte ist früher ausgefallen? Welche Daten wurden gegebenenfalls durch fatale Rettungsversuche überschrieben? Welche verlorenen (zum Beispiel durch Oberflächenschäden oder durch Überschreiben) können wir neu berechnen?

Im letzten Schritt werden die Dateisysteme auf dem RAID analysiert und neu berechnet, und anschließend etwaige Datenbanken (zum Beispiel MS SQL, Oracle, Exchange, etc.) sowie andere Dokumenttypen auf korrekte Funktion getestet bzw. repariert.

So ist es Attingo möglich, auch sehr komplexe RAID-Systeme mit hoher Kapazität in sehr kurzer Zeit zu rekonstruieren, um den Stillstand von Betrieben so kurz wie möglich zu halten.

[Gesamt:1    Durchschnitt: 5/5]

Schreibe einen Kommentar