Durch das Zusammenspiel von Hardware und Software wird sichergestellt, dass
die Temperaturen innerhalb des Gehäuses nicht die vordefinierten Bereiche für
einen sicheren Betrieb unter- oder überschreiten. Wenn die Temperatur, die
durch einen Sensor überwacht wird, die Unterkühlungswarnschwelle unter- oder
die Überhitzungswarnschwelle überschreitet, aktiviert die Software des
Überwachungssubsystems die Wartung erforderlich-LEDs auf der Vorder- bzw.
Rückseite des Systems. Falls der Überhitzungs- bzw. Unterkühlungszustand andauert
und einen kritischen Schwellenwert erreicht, wird das System softwaregesteuert
ausgeschaltet. Falls der ALOM System-Controller ausfällt, werden Ersatzsensoren
benutzt, um das System vor schweren Schäden zu schützen und gegebenenfalls
hardwaregesteuert auszuschalten.
Alle Fehler- und Warnmeldungen werden an die Systemkonsole gesendet und in der
Datei /var/adm/messages protokolliert. Die Wartung erforderlich-LEDs an der
Vorderseite leuchten auch nach dem automatischen Herunterfahren des Systems
weiter, um die Problemdiagnose zu erleichtern.
Das Stromversorgungssubsystem wird auf ähnliche Weise überwacht.
Das Überwachungssubsystem fragt in regelmäßigen Abständen die Statusregister
des Netzteils ab und zeigt den Status der Leistungsabgabe, des Leistungseingangs
und das Vorhandensein eines jeden Netzteils an.
Erkennt das Subsystem ein Problem mit einem Netzteil, wird eine
entsprechende Fehlermeldung an die Systemkonsole gesendet und in der Datei
/var/adm/messages protokolliert. Darüber hinaus leuchten LEDs an jedem
Netzteil auf, um auf den Fehler aufmerksam zu machen. Die Wartung erforderlich-
LED leuchtet, um auf einen Systemfehler hinzuweisen.
Automatic System Recovery
Das System stellt Funktionen zur automatischen Systemwiederherstellung
(ASR-Funktionen) nach Komponentenfehlern in Speichermodulen und PCI-Karten
bereit.
Die ASR-Funktionen ermöglicht die Wiederaufnahme des Systembetriebs nach
weniger schwerwiegenden Hardwarefehlern oder -ausfällen. Automatische
Selbsttests ermöglichen dem System die Erkennung ausgefallener Hardware-
Komponenten. Eine in die Boot-Firmware des Systems integrierte Funktion zur
automatischen Konfiguration ermöglicht es dem System, ausgefallene Komponenten
zu dekonfigurieren und den Betrieb wieder aufzunehmen. Solange das System auch
ohne die ausgefallene Komponente arbeiten kann, ist es dank der ASR-Funktionen
in der Lage, automatisch neu zu starten, ohne dass dazu ein Eingriff von
Benutzerseite erforderlich ist.
Kapitel 2 Funktionen für Zuverlässigkeit, Verfügbarkeit und Wartungsfähigkeit
41