Die erste und wichtigste Komponente einer zuverlässigen Wartungsstrategie besteht darin, aufgetretene
Fehler präzise und effektiv erkennen zu können. Obwohl nicht alle Fehler die Systemverfügbarkeit bedro-
hen, stellen die unerkannten Fehler eine Gefahr dar, da das System sie nicht auswerten und bei Bedarf
Maßnahmen ergreifen kann. Auf POWER7-Prozessoren basierende Systeme sind mit speziellen Mechanis-
men für die Fehlererkennung ausgestattet, die von den Prozessorkernen über den Speicher und die Netz-
teile bis hin zu den Festplatten alles abdecken.
Auf POWER7-Prozessoren basierende Systeme enthalten spezielle Hardwareerkennungslogik, um fehler-
hafte Hardwarevorgänge zu ermitteln. Die Hardwarefehlerprüfung reicht von der Paritätsfehlererkennung
in Verbindung mit einer Wiederholung von Prozessoranweisungen und Busvorgängen bis hin zur Fehler-
behebung mithilfe von Fehlerkorrekturcodes bei Cachespeichern und Systembussen.
Die IBM Hardwarefehlerprüfprogramme weisen folgende besondere Merkmale auf:
v Kontinuierliche Überwachung von Systemvorgängen, um potenzielle Berechnungsfehler zu erkennen
v Versuchte Eingrenzung von physischen Fehlern anhand der Laufzeiterkennung für jeden einzelnen
Fehler
v Initiierung einer breiten Palette an Fehlerbehebungsmechanismen, um Fehler zu beseitigen
Auf POWER7-Prozessoren basierende Systeme enthalten umfassende Fehlerbehebungslogik für Hardware
und Firmware.
Bearbeitung von Maschinenfehlern
Maschinenfehler werden von der Firmware bearbeitet. Wenn ein Maschinenfehler auftritt, analysiert die
Firmware den Fehler, um die fehlerhafte Einheit zu bestimmen, und erstellt einen Eintrag im Fehlerproto-
koll.
Wenn das System so stark beeinträchtigt ist, dass der Serviceprozessor nicht mehr den Bereitschaftsstatus
erreicht, kann keine Fehleranalyse ausgeführt werden. Wenn der Fehler bei Aktivitäten des Hypervisors
auftritt, leitet der Hypervisor einen Warmstart des Systems ein.
Im Modus für Partitionierung wird ein Fehler, der bei Partitionsaktivitäten auftritt, durch das Betriebssys-
tem der Partition angezeigt.
Diagnosetools
Für die Diagnose und Behebung hardwarebezogener Fehler stehen bestimmte Tools zur Verfügung.
v Fortschrittscodes beim Selbsttest beim Einschalten (POST), Fehlercodes und Prozeduren zur Proble-
meingrenzung
Durch den POST wird die Hardware bei der Systeminitialisierung überprüft. Durch die Diagnosefunk-
tionen beim einleitenden Programmladen (IPL) werden einige Systemkomponenten und -verbindungen
getestet. Der POST generiert 8-stellige Prüfpunkte, um den Fortschritt beim Einschalten des Rechen-
knotens festzuhalten.
Die Fortschrittscodes können Sie im Managementmodul anzeigen.
Die Dokumentation eines Fortschrittscodes enthält Fehlerbehebungsaktionen für Systemblockierungen.
Weitere Informationen zu diesem Thema finden Sie unter „POST-Fortschrittscodes (Prüfpunkte)" auf
Seite 236.
Wenn der Serviceprozessor beim POST einen Fehler erkennt, wird der Fehlercode in das Ereignisproto-
koll des Managementmoduls geschrieben. Fehlercodes werden außerdem im Linux-Systemprotokoll
oder im AIX-Diagnoseprotokoll aufgezeichnet, falls möglich. Weitere Informationen finden Sie in „Sys-
temreferenzcodes (SRCs)" auf Seite 110.
Der Serviceprozessor kann Codes generieren, die auf bestimmte Prozeduren zur Problemeingrenzung
verweisen. Weitere Informationen finden Sie in „Serviceprozessorfehler" auf Seite 482.
v Light-Path Diagnostics
104
Power Systems: IBM Flex System p270 Rechenknoten - Installations- und Servicehandbuch