Herunterladen Inhalt Inhalt Diese Seite drucken

Lenovo ThinkSystem SD650-I V3 Neptune DWC Benutzerhandbuch Seite 339

Vorschau ausblenden Andere Handbücher für ThinkSystem SD650-I V3 Neptune DWC:
Inhaltsverzeichnis

Werbung

„System erkennt keine bestimmte GPU" auf Seite 331
„XCC GPU-Sensor – Technische Daten" auf Seite 332
Zustandsprüfung für GPUs und GPU-Platine
Der folgende Sensorstatus von ipmitool gibt an, dass sich die GPUs und die GPU-Platine im normalen
Zustand befinden.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board
| E9h | ok | 11.8 | Transition to OK
GPU CPUs
| EAh | ok | 11.9 | Transition to OK
Intel® XPU Manager
Zur Prüfung des GPU-Zustands können Sie den Intel® XPU Manager verwenden. Der Intel® XPU Manager
ist ein Tool zur GPU-Überwachung und -Steuerung, das die GPU-Verwaltung vereinfacht. Den Intel® XPU
Manager-Download und weitere Informationen finden Sie unter
software/xpu-manager.html
System kann die GPU-Platine nicht erkennen
Wenn das Ereignis Sensor GPU Board has transitioned to critical from a less severe state im XCC-
Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System die GPU-Platine nicht erkannt hat.
Gehen Sie wie folgt vor, um das Problem zu beheben.
1. Schalten Sie das System aus und wieder ein.
2. Überprüfen Sie Ereignisse im Zusammenhang mit der Stromversorgung in XCC und SMM2 (siehe
https://pubs.lenovo.com/mgt_tools_smm2/c_power
3. Überprüfen Sie die Systemtemperatur und den Wasserdurchfluss. Suchen Sie nach Lecks, trennen Sie
die Verbindung zum Wasserkühlungssystem und schließen Sie es wieder an.
4. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe
GPUs und GPU-Platine" auf Seite
5. Die folgenden Meldungen weisen darauf hin, dass der Fehler behoben wurde:
• FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) in XCC-Nachrichten
• Sensor GPU Board has transitioned to normal state im Webprotokoll
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor:
a. Erfassen Sie die XCC-Servicedaten (siehe
b. Wenden Sie sich an den Lenovo Support.
System erkennt keine bestimmte GPU
Wenn das Ereignis Sensor GPU CPUs has transitioned to critical from a less severe state im XCC-
Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System mindestens eine bestimmte GPU nicht
erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.
1. Überprüfen Sie, ob der Retimer eine Temperaturüberschreitung vom XCC-Ereignis angibt. Wenn ja,
überspringen Sie den nächsten Schritt.
2. Laden Sie die aktuelle Firmware von der Supportseite für Rechenzentren () herunter und aktualisieren Sie
die Firmware.
3. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe
GPUs und GPU-Platine" auf Seite
4. Wenn das Ereignis Sensor GPU Board has transitioned to normal state im XCC-Webereignisprotokoll
angezeigt wird, bedeutet dies, dass der Fehler behoben wurde.
.
331).
331).
https://www.intel.com/content/www/us/en/
).
„Servicedaten erfassen" auf Seite
„Zustandsprüfung für
356).
„Zustandsprüfung für
.
Kapitel 8
Fehlerbestimmung
331

Werbung

Inhaltsverzeichnis
loading

Diese Anleitung auch für:

7d7l

Inhaltsverzeichnis