Festplattenausfall

Über die Ausfalls-Wahrscheinlichkeiten

Zu den statistischen Werten gibt es in den Datenblättern von Festplatten einige Anhaltspunkte, hierzu zählt unter anderem die „Mean Time Between Failure“s (MTBF) – zu Deutsch: die mittlere Betriebsdauer zwischen Ausfällen. Zu deren Berechnung lassen die Hersteller einige Hundert Festplatten unter Idealbedingungen – also ohne die realen Einflüsse wie Temperaturschwankungen oder physische Einwirkungen – eine gewisse Zeit laufen, um dann die aufsummierte Betriebsdauer durch die Ausfälle zu teilen. Hierbei entstehen nicht selten Angaben von über einer Million Stunden (dies wäre über ein Jahrhundert).

Ein anderer Wert ist die „Annualized Failure Rate“ (AFR), die meistens zwischen 0,3 und 0,8 Prozent liegt und angibt, wie viele der ausgelieferten Platten einer Serie pro Jahr ausfallen. Alleine von den letztes Jahr verkauften 460 Millionen HDDs, fallen also Jahr für Jahr durchschnittlich 2 Millionen aus, von den aus dem Jahr davor verkauften ebenso und so weiter …

Ein ungeschriebenes Gesetz der Hersteller besagt jedoch, dass bei errechneten Werten von über einem Prozent der Wert nicht ins Datenblatt wandert 😉 Man stelle sich nun beispielsweise ein RAID mit 48 Festplatten und einer durchschnittlichen Einsatzdauer von 5 Jahren vor, so fallen bei einem kumulierten Prozentsatz von 4% während der Laufzeit statistisch 2 Festplatten aus. Realistischer aber ist es, dass gerade beim Austausch einer Festplatte im RAID die Gefahr für einen weiteren Ausfall während des Rebuilds besonders hoch ist, da alle verbauten Festplatten in der Regel die gleiche Lebensgeschichte haben. Also den selben Transportweg von Containerschiffen über Großhändler bis zum Einsatzort hatten, den selben Betriebseinflüssen ausgesetzt waren und nun alle vollständig fehlerfrei lesen müssten, um eine korrekte Synchronität wiederherzustellen. Es werden dabei aber auch Rohdaten-Bereiche gelesen, die möglicherweise schon lange nicht mehr genutzt wurden und bislang unentdeckte Schadstellen sein könnten, die nun einen Ausfall wahrscheinlicher machen.

Der letzte interessante Wert ist die Angabe für die nicht korrigierbaren Lesefehler pro gelesenen Bits, der im Consumer-Bereich meist bei 1014 liegt. Anders ausgedrückt ergibt das einen Lesefehler nach 11,3 TB gelesenen Daten, womit ein Fehler insbesondere beim vollständigen Auslesen während eines Rebuilds großer RAIDs, die dank NAS-Systemen selbst schon in vielen Privathaushalten in dieser Größenordnung angekommen sind, nicht mehr unwahrscheinlich ist.

[Gesamt:0    Durchschnitt: 0/5]

Schreibe einen Kommentar