Herunterladen Diese Seite drucken

Lenovo ThinkSystem SD665-N V3 Neptune DWC 7DAZ Benutzerhandbuch Seite 500

Einbaurahmen
Vorschau ausblenden Andere Handbücher für ThinkSystem SD665-N V3 Neptune DWC 7DAZ:

Werbung

5. Die folgenden Meldungen weisen darauf hin, dass der Fehler behoben wurde:
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) in XCC-Nachrichten
• Sensor GPU Board has transitioned to normal state im Webprotokoll
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor:
a. Erfassen Sie die XCC-Servicedaten (siehe
b. Wenden Sie sich an den Lenovo Support.
System erkennt keine bestimmte GPU
Wenn das Ereignis Sensor GPU CPUs has transitioned to critical from a less severe state im XCC-
Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System mindestens eine bestimmte GPU nicht
erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.
1. Überprüfen Sie, ob der Retimer eine Temperaturüberschreitung vom XCC-Ereignis angibt. Wenn ja,
überspringen Sie den nächsten Schritt.
2. Laden Sie die aktuelle Firmware von der Supportseite für Rechenzentren (
datacentersupport.lenovo.com/products/servers/thinksystem/sd665nv3/7daz
Sie die Firmware.
3. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe
GPUs und GPU-Platine" auf Seite
4. Wenn das Ereignis Sensor GPU Board has transitioned to normal state im XCC-Webereignisprotokoll
angezeigt wird, bedeutet dies, dass der Fehler behoben wurde.
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor.
a. Prüfen Sie das XCC-Webereignisprotokoll, um die fehlerhafte Einheit und den Problemtyp zu
ermitteln (siehe
b. Erfassen Sie die XCC-Servicedaten (siehe
c. Führen Sie nvidia-smi zur Diagnose aus (Details siehe
management-interface
Anmerkung: Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er das Dienstprogramm
nvidia-smi enthält, das für die GPU-Fehlerbestimmung erforderlich ist. Den neuesten Treiber finden
Sie unter
https://datacentersupport.lenovo.com/products/servers/thinksystem/sd665nv3/7daz/
downloads/driver-list/
d. Führen Sie nvidia-bug-report.sh aus (integriertes Tool im NVIDIA-Treiber).
e. Wenden Sie sich an den Lenovo Support.
XCC GPU-Sensor – Technische Daten
Wenn ein Ereignis im XCC-Webereignisprotokoll angezeigt wird, finden Sie in der folgenden Tabelle
Informationen zum Identifizieren der fehlerhaften Einheit und des Problemtyps. Beispiel:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
492
ThinkSystem SD665-N V3 Neptune DWC Einbaurahmen Benutzerhandbuch
491).
„XCC GPU-Sensor – Technische Daten" auf Seite
).
.
„Servicedaten erfassen" auf Seite
„Servicedaten erfassen" auf Seite
https://developer.nvidia.com/nvidia-system-
516).
https://
) herunter und aktualisieren
„Zustandsprüfung für
492).
516).

Werbung

loading

Diese Anleitung auch für:

Thinksystem sd665-n v3 neptune dwc7daz