4. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe
GPUs und GPU-Platine" auf Seite
5. Die folgenden Meldungen weisen darauf hin, dass der Fehler behoben wurde:
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) in XCC-Nachrichten
• Sensor GPU Board has transitioned to normal state im Webprotokoll
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor:
a. Erfassen Sie die XCC-Servicedaten (siehe
b. Wenden Sie sich an die Lenovo Unterstützung.
System erkennt keine bestimmte GPU
Wenn das Ereignis Sensor GPU CPUs has transitioned to critical from a less severe state im XCC-
Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System mindestens eine bestimmte GPU nicht
erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.
1. Überprüfen Sie, ob der Retimer eine Temperaturüberschreitung vom XCC-Ereignis angibt. Wenn ja,
überspringen Sie den nächsten Schritt.
2. Laden Sie die aktuelle Firmware von der Supportseite für Rechenzentren (
datacentersupport.lenovo.com/products/servers/thinksystem/SD650v2
Firmware.
3. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe
GPUs und GPU-Platine" auf Seite
4. Wenn das Ereignis Sensor GPU Board has transitioned to normal state im XCC-Webereignisprotokoll
angezeigt wird, bedeutet dies, dass der Fehler behoben wurde.
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor.
a. Prüfen Sie das XCC-Webereignisprotokoll, um die fehlerhafte Einheit und den Problemtyp zu
ermitteln (siehe
b. Erfassen Sie die XCC-Servicedaten (siehe
c. Führen Sie nvidia-smi zur Diagnose aus (Details siehe
management-interface
d. Führen Sie nvidia-bug-report.sh aus (integriertes Tool im NVIDIA-Treiber).
e. Wenden Sie sich an die Lenovo Unterstützung.
XCC GPU-Sensor – Technische Daten
Wenn ein Ereignis im XCC-Webereignisprotokoll angezeigt wird, finden Sie in der folgenden Tabelle
Informationen zum Identifizieren der fehlerhaften Einheit und des Problemtyps. Beispiel:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
446
ThinkSystem SD650 V2/SD650-N V2 Neptune DWC Einbaurahmen und DW612 Neptune DWC GehäuseWartungshandbuch
445).
445).
„XCC GPU-Sensor – Technische Daten" auf Seite
).
„Servicedaten erfassen" auf Seite
) herunter und aktualisieren Sie die
„Servicedaten erfassen" auf Seite
https://developer.nvidia.com/nvidia-system-
„Zustandsprüfung für
452).
https://
„Zustandsprüfung für
446).
452).