GPU-Probleme
Mithilfe der Informationen in diesem Abschnitt können Sie Probleme im Zusammenhang mit GPUs und der
GPU-Platine beheben.
•
„Zustandsprüfung für GPUs und GPU-Platine" auf Seite 445
•
„System kann die GPU-Platine nicht erkennen" auf Seite 445
•
„System erkennt keine bestimmte GPU" auf Seite 446
•
„XCC GPU-Sensor – Technische Daten" auf Seite 446
Zustandsprüfung für GPUs und GPU-Platine
Der folgende Sensorstatus von ipmitool gibt an, dass sich die GPUs und die GPU-Platine im normalen
Zustand befinden.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board
| E9h | ok | 11.8 | Transition to OK
GPU CPUs
| EAh | ok | 11.9 | Transition to OK
Die Zusammenfassung des nvidia-smi Dienstprogramms gibt an, dass vier GPUs online sind.
Abbildung 434. nvidia-smi
System kann die GPU-Platine nicht erkennen
Wenn das Ereignis Sensor GPU Board has transitioned to critical from a less severe state im XCC-
Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System die GPU-Platine nicht erkannt hat.
Gehen Sie wie folgt vor, um das Problem zu beheben.
1. Schalten Sie das System aus und wieder ein.
2. Überprüfen Sie Ereignisse im Zusammenhang mit der Stromversorgung in XCC und SMM2 (siehe
https://thinksystem.lenovofiles.com/help/topic/mgt_tools_smm2/c_power.html
3. Überprüfen Sie die Systemtemperatur und den Wasserdurchfluss. Suchen Sie nach Lecks, trennen Sie
die Verbindung zum Wasserkühlungssystem und schließen Sie es wieder an.
).
.
Kapitel 4
Fehlerbestimmung
445