Überwachung und Korrektur der Laufwerke
Fehlerkorrektur und Fehlerverifizierung im physischen Speicher
Laufwerks-Sparing und Direct Member Sparing
Metadaten werden zur Validierung der logischen Fehlerfreiheit der im Array
verschobenen Daten verwendet. Dies geschieht bei jeder Datenverschiebung zwischen
Protokollchips, internen Puffern, internen Daten-Fabric-Endpunkten, dem
Systemcache und Systemfestplatten.
HYPERMAX OS überwacht potenzielle Mediendefekte durch die Untersuchung der
Ergebnisse aller Datenübertragungen zwischen Festplatten und durch proaktives
Scannen der gesamten Festplatte während Inaktivitätsphasen. Wenn ein
Festplattenblock als fehlerhaft erkannt wird, führt der Director die folgenden Schritte
durch:
1. Der Director baut die Daten im physischen Speicher erneut auf, falls erforderlich.
2. Der fehlerhafte Block wird einem anderen, speziell für diesen Zweck reservierten
Bereich des Laufwerks zugeordnet.
3. Daten aus dem physischen Speicher werden zurück auf den neu zugeordneten
Block auf dem Laufwerk geschrieben.
4. Der Director schreibt die Daten im physischen Speicher neu, falls erforderlich.
Der Director umgeht durch entsprechende Zuordnung alle als fehlerhaft erkannten
Blöcke und vermeidet so Defekte auf den Medien. Des Weiteren überwacht er
sämtliche als fehlerhaft erkannten Blöcke auf einem Laufwerk. Wenn die Anzahl
fehlerhafter Blöcke einen vordefinierten Schwellenwert übersteigt, ruft das VMAX-
Array einen Sparing-Vorgang auf, um das fehlerhafte Laufwerk zu ersetzen.
Anschließend werden automatisch Warnungen an den EMC Customer Service
gesendet, damit gegebenenfalls eine Korrekturmaßnahme eingeleitet werden kann.
Mit dem Sparing-Modell „Deferred Service" ist oftmals keine sofortige Maßnahme
erforderlich.
HYPERMAX OS korrigiert Einzelbitfehler und meldet einen Fehlercode, sobald die
Einzelbitfehler einen bestimmten Schwellenwert erreicht haben. Im
unwahrscheinlichen Fall, dass ein Austausch des physischen Speichers erforderlich ist,
benachrichtigt das Array den EMC Support, der dann Ersatz bestellt.
Wenn HYPERMAX OS 5977 ein Laufwerk erkennt, das kurz vor einem Ausfall steht
oder ausgefallen ist, wird ein DMS-Prozess (Direct Member Sparing) initiiert. Beim
Direct Member Sparing wird nach verfügbaren Ersatzlaufwerken in derselben Engine
gesucht, die über dieselbe Blockgröße, Kapazität und Geschwindigkeit verfügen. Dabei
wird immer das beste verfügbare Ersatzlaufwerk verwendet.
Beim Direct Member Sparing wird das aufgerufene Ersatzlaufwerk als weiteres
Mitglied der RAID-Gruppe hinzugefügt. Während einer Laufwerkswiederherstellung
wird die Option, Daten direkt vom ausgefallenen Laufwerk auf das aufgerufene
Ersatzlaufwerk zu kopieren, unterstützt. Das ausgefallene Laufwerk wird erst entfernt,
wenn der Kopiervorgang abgeschlossen ist. Das Direct Member Sparing wird
automatisch nach der Erkennung von Laufwerksfehlerbedingungen initiiert.
Das Direct Member Sparing bietet die folgenden Vorteile:
Das Array kann die Daten vom ausgefallenen RAID-Mitglied (falls verfügbar)
l
kopieren, sodass die Daten nicht von allen Mitgliedern gelesen werden müssen und
die Wiederherstellung durchgeführt werden kann. Das Kopieren an das neue RAID-
Mitglied ist weniger CPU-intensiv.
VMAX3 mit HYPERMAX OS
Datensicherheit und Datenintegrität
47