Inhalt Erste Schritte ....................... 4 Lieferumfang ......................4 Tipps zur sicheren und komfortablen Bedienung ........... 4 Systemdimension ..................... 5 Systemübersicht ....................... 6 Hardware-Einstellungen ................... 8 Platzierung des Systems ................... 9 Stacking des Systems ..................... 10 Ersteinrichtung ....................11 Was ist NVIDIA DGX™ OS ..................11 Merkmale ........................
Seite 3
NVIDIA Sync ....................... 23 Installation ......................23 Unterstützte Anwendungen ................... 23 Zusätzliche Verbindungsmethoden ............... 23 DGX™ Dashboard ....................24 Integriertes JupyterLab ..................24 Zugriff auf das Dashboard ..................25 NVIDIA Container Runtime für Docker ............. 25 Optional: Benutzer zur Docker-Gruppe hinzufügen ..........26 Verwendung ......................
Erste Schritte Dieser Teil bietet Ihnen Informationen zur ersten Inbetriebnahme. Bitte achten Sie beim Anschließen des Bildschirms darauf, ihn vorsichtig zu greifen und ein Antistatik- Armband zu tragen, um statische Aufladung zu vermeiden. Lieferumfang Kleiner Server MS-C931 Dokumentation Kurzanleitung Zubehör USB-PD-Adapter Netzkabel Wichtig...
Seite 7
Lüfter Der Lüfter im Geräteinneren dient der Luftzirkulation und bewahrt das Gerät vor Überhitzung. Blockieren Sie den Lüfter nicht. Power Button (Ein-/Austaste) Mit der Ein-/Aus-Taste schalten Sie das System an und aus. Stromanschluss Diese Buchse versorgt Ihr Gerät mit Strom. USB 20 Gbit/s Typ-C Anschluss Jeder Anschluss kann bis zu 5 V / 3 A Leistung liefern, mit einer maximalen kombinierten Ausgangsleistung von 30 W für drei angeschlossene Geräte.
Hardware-Einstellungen Netzteil anschliessen Externes Netzteil: 240 W, 48,0 V ● Eingang: 110–120 V AC, 50/60 Hz, 3,5 A / 200–240 V AC, 50/60 Hz, 2,5 A ● Ausgang: 48,0 V 5,0 A ● Wichtig ⚠ Bitte den Adapter verwenden, welcher mit Ihrem Gerät ausgeliefert wird. Die ●...
Stacking des Systems Mit dem optionalen QSFP-Kabel können bis zu zwei Systeme gestackt werden. Wichtig ⚠ Das zweite System und das dargestellte QSFP-Kabel dienen ausschließlich zu ● Illustrationszwecken und sind nicht im Lieferumfang enthalten. Bitte beachten Sie auch den Abschnitt „System Clustering “ für detailliertere ●...
Ersteinrichtung Wichtig ⚠ Alle Informationen und Screenshots können ohne vorherige Ankündigung geändert werden. Was ist NVIDIA DGX™ OS Dieses Gerät ist mit NVIDIA DGX™ OS vorinstalliert, um eine schlüsselfertige Lösung für den Betrieb von KI- und Analyse-Workloads bereitzustellen. Die anfängliche Systemkonfiguration erfolgt über einen Einrichtungsassistenten, der nach dem ersten Start ausgeführt wird.
Einrichtung beim ersten Start Diese Anleitung führt Sie durch die Einrichtung Ihres Systems beim ersten Start. Sie wählen aus, wie Sie Ihr System verwenden möchten, und führen den Installationsassistenten aus, um alle Einstellungen zu konfigurieren. Was Sie tun werden Dieser Einrichtungsprozess umfasst: ●...
Vorbereitung Bevor Sie beginnen, stellen Sie sicher, dass Folgendes vorhanden ist: ● Stromversorgung ist mit dem System verbunden. ● Entweder eine Ethernet-Verbindung mit gültiger Internetverbindung oder ein verfügbares WLAN-Netzwerk mit gültiger Internetverbindung ohne Captive Portal (z. B. in einem Hotel/am Flughafen). ●...
USB-Geräte können jederzeit angeschlossen werden und sollten funktionieren, selbst wenn sie zunächst nicht korrekt erkannt werden. Bluetooth-Geräte können in den Kopplungsmodus versetzt werden und lassen sich in der Regel auch noch auf dem Bildschirm „Erste Schritte “ koppeln (Ausnahme: Tastaturen, die zur Kopplung einen Passcode eingeben müssen;...
Seite 15
8. Mit dem WLAN verbinden Das System verbindet sich mit Ihrem WLAN und schließt den Access Point. Ihr Computer stellt automatisch die Verbindung zu Ihrem Standardnetzwerk wieder her. Wichtig ⚠ Probleme mit der Netzwerkverbindung. ● Wenn Ihr Computer automatisch wieder mit demselben Netzwerk wie das System ●...
System-Clusterbildung Dieser Leitfaden erklärt, wie zwei Systeme zu einem virtuellen Compute- Cluster verbunden werden können, unter Verwendung einer vereinfachten Netzwerkkonfiguration und eines QSFP/CX7-Kabels für die Hochleistungsverbindung. Ziel ist es, verteilte Workloads über die Grace Blackwell GPUs auszuführen, unter Nutzung von MPI (für die CPU-zu-CPU-Kommunikation zwischen Prozessen) und NCCL v2.28.3 (für GPU-beschleunigte kollektive Operationen).
Option 2: Manuelle IP-Zuweisung (Erweitert). Befolgen Sie diese Schritte, um manuell IP-Adressen für das dedizierte Cluster-Netzwerk zu vergeben. 1. Auf Knoten 1 (Node 1): Statische IP-Adresse zuweisen und Schnittstelle aktivieren: sudo ip addr add 192.168.100.10∕24 dev enP2p1s0f1np1 sudo ip link set enP2p1s0f1np1 up 2.
Erforderliche Software installieren und Konfiguration überprüfen Nachdem die Netzwerkkonfiguration abgeschlossen ist und die Systeme miteinander kommunizieren können, besteht der nächste Schritt darin, die erforderliche Software für verteilte Workloads zu installieren und Test-Workloads auszuführen. Dadurch wird überprüft, ob die GPU-zu-GPU-Kommunikation korrekt funktioniert, und die Leistung über die gestapelten Systeme hinweg gemessen.
Seite 19
3. NCCL-Testsuite erstellen Kompilieren Sie die NCCL-Testsuite, um die Kommunikationsleistung zu validieren. # Clone and build NCCL tests git clone https://github.com/NVIDIA/nccl-tests.git ~/nccl-tests/ cd ~/nccl-tests/ make MPI=1 4. Aktive Netzwerkschnittstelle und IP-Adressen finden Führen Sie den Multi-Node-NCCL-Leistungstest mithilfe der aktiven Netzwerkschnittstelle aus. Identifizieren Sie zunächst, welche Netzwerkports verfügbar und aktiv sind.
Seite 20
Beispielausgabe: # In this example, we are using interface enp1s0f1np1. nvidia@dgx-spark-1:~$ ip addr show enp1s0f1np1 4: enp1s0f1np1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000 link/ether 3c:6d:66:cc:b3:b7 brd ff:ff:ff:ff:ff:ff inet **169.254.35.62**/16 brd 169.254.255.255 scope link noprefixroute enp1s0f1np1 valid_lft forever preferred_lft forever inet6 fe80::3e6d:66ff:fecc:b3b7/64 scope link valid_lft forever preferred_lft forever...
Sie können Ihr NCCL-Setup auch mit einer größeren Puffergröße testen, um die 200 Gbit/s Bandbreite besser auszunutzen. # Set network interface environment variables (use your active interface) export UCX_NET_DEVICES=enp1s0f1np1 export NCCL_SOCKET_IFNAME=enp1s0f1np1 export OMPI_MCA_btl_tcp_if_include=enp1s0f1np1 # Run the all_gather performance test across both nodes mpirun -np 2 -H <IP for Node 1>:1,<IP for Node 2>:1 \ --mca plm_rsh_agent “ssh -o UserKnownHostsFile=/dev/null -o StrictHostKeyChecking=no”...
Aktualisierung des NVIDIA DGX™ OS Wenn Sie auf die neueste OS- oder Software-Version aktualisieren möchten, besuchen Sie bitte: https://ipc.msi.com/product_download/Industrial-Computer-Box-PC/AI- Supercomputer/EdgeXpert-MS-C931 Neuinstallation (Reimaging) des NVIDIA DGX™ OS Wichtig ⚠ Eine Neuinstallation löscht alle auf den OS-Laufwerken gespeicherten Daten. Dies schließt die /home-Partition ein, in der sich alle Benutzerdokumente, Softwareeinstellungen und andere persönliche Dateien befinden.
NVIDIA Sync NVIDIA Sync ist ein System-Tray-Dienstprogramm, das einen einfachen Zugriff auf Ihr System von einem anderen Rechner ermöglicht, wenn es als Headless-Appliance betrieben wird (ohne Monitor oder Tastatur). Installation 1. Laden Sie die neueste Version von NVIDIA Sync von der Seite https://build.nvidia. com/spark herunter.
DGX™ Dashboard Das System verfügt über ein integriertes Dashboard, das einen Überblick über die aktuellen Betriebsmetriken des Systems bietet, die Möglichkeit, Updates anzuwenden, einige Systemeinstellungen zu ändern und auf lokale Jupyter Notebooks zuzugreifen. Das DGX™ Dashboard ermöglicht Realtime-Systemüberwachung und bietet integrierten Zugriff auf JupyterLab.
Zugriff auf das Dashboard Das Dashboard kann lokal über die Schaltfläche „Show Apps “ in der unteren linken Ecke des Ubuntu-Desktops geöffnet werden. Wählen Sie anschließend im App-Raster die Verknüpfung „DGX Dashboard “, um das Dashboard im Standard-Webbrowser zu öffnen. Remote kann auf das Dashboard mit NVIDIA Sync oder über einen manuell erstellten SSH-Tunnel zugegriffen werden.
Optional: Benutzer zur Docker-Gruppe hinzufügen Standardmäßig erfordert Docker sudo-Rechte, um Befehle auszuführen. Das Hinzufügen Ihres Benutzers zur docker-Gruppe ermöglicht es Ihnen, Docker-Befehle ohne sudo auszuführen, was folgende Vorteile bietet: ● Komfort: Kein Eingeben von sudo vor jedem Docker-Befehl erforderlich. ● Besserer Workflow: Nahtlose Integration mit Entwicklungswerkzeugen und Skripten. ●...
Validierung GPU-Zugriff testen. 1. Führen Sie den Testbefehl aus, um den GPU-Zugriff zu überprüfen. docker run -it --gpus=all nvcr.io∕nvidia∕cuda:13.0.1-devel-ubuntu24.04 nvidia- Die erwartete Ausgabe sollte anzeigen: - GPU-Geräteinformationen - Treiberversion - CUDA-Version - Speichernutzung und Temperatur. 2. Runtime-Konfiguration überprüfen. docker info | grep -A 10 “Runtimes” 3.
Wenn Berechtigungsfehler auftreten. 1. Stellen Sie sicher, dass Ihr Benutzer in der docker-Gruppe ist (wenn Sie sudo nicht verwenden). groups $USER 2. Überprüfen Sie die Geräteberechtigungen. ls -la ∕dev∕nvidia* 3. Überprüfen Sie, ob der Docker-Daemon Zugriff auf die GPU-Geräte hat. sudo docker run -it --gpus=all nvcr.io∕nvidia∕cuda:13.0.1-devel-ubuntu24.04 nvidia-smi Wenn Container nicht starten.
Erste Schritte Erstellen eines NGC-Kontos. 1. Besuchen Sie die NGC-Website. 2. Klicken Sie auf „Sign Up “ und erstellen Sie ein kostenloses Konto. 3. Bestätigen Sie Ihre E-Mail-Adresse. 4. Vervollständigen Sie Ihre Profilinformationen. API-Schlüssel generieren 1. Melden Sie sich bei Ihrem NGC-Konto an. 2.
Grundlegende Nutzung Container herunterladen und ausführen. Starten Sie mit einem gängigen AI/ML- Framework-Container. # Pull a PyTorch container optimized for Grace Blackwell docker pull nvcr.io∕nvidia∕pytorch:24.08-py3 # Run the container with GPU access docker run -it --gpus=all nvcr.io∕nvidia∕pytorch:24.08-py3 Verfügbare Ressourcen erkunden Durchsuchen Sie die NGC-Ressourcen über die Weboberfläche.
Datenpersistenz. ● Volume-Mounts: Binden Sie Ihre Datenverzeichnisse in Container ein (mount) für die Persistenz. ● Modellspeicher: Speichern Sie trainierte Modelle und Checkpoints außerhalb der Container. ● Konfiguration: Halten Sie Konfigurationsdateien in der Versionskontrolle. Sicherheit. ● API-Schlüsselsicherheit: Speichern Sie Ihren NGC-API-Schlüssel sicher und ändern Sie ihn regelmäßig.
Beziehen und Aktivieren eines KI- Modells von der offiziellen NVIDIA- Website Um Anleitungen und Beispiele zum Anpassen und Ausführen von AI-Workloads zu finden, besuchen Sie bitte die NVIDIA Developer Website: https://build.nvidia.com/ spark Firmware-Update Dieser Abschnitt enthält Anleitungen zum Aktualisieren der Firmware-Komponenten Ihres Systems.
Manuelle Methode Wenn Sie das DGX™ Dashboard nicht verwenden können, können Sie die Firmware manuell mithilfe der folgenden Schritte aktualisieren: 1. Öffnen Sie ein Remote- oder lokales Terminal auf dem System. 2. Führen Sie die folgenden Befehle aus: sudo apt update sudo apt upgrade sudo fwupdmgr refresh sudo fwupdmgr upgrade...
● Place the power cord in a way that people are unlikely to step on it. Do not place anything on the power cord. ● If this device comes with an adapter, use only the MSI provided AC adapter approved for use with this device.
Seite 35
European Union: Batteries, battery packs, and accumulators should not be disposed of as unsorted household waste. Please use the public collection system to return, recycle, or treat them in compliance with the local regulations. Battery Recycle: For better environmental protection, waste batteries should be collected separately for recycling or special disposal.
Environment Information ● To reduce the possibility of heat-related injuries or of overheating the device, do not place the device on a soft, unsteady surface or obstruct its air ventilators. ● Use this device only on a hard, flat and steady surface. ●...
● Implementing measure Directive 2009/125/EC of ESPR Regulation (EU) 2024/1781 Compliance with these directives is assessed using applicable European Harmonized Standards. For any support regarding the EU General Product Safety Regulation (GPSR), please contact MSI Computer Europe В.V. via gpsr@msi.com Churchilllaan 202, 5705 BK Helmond, the Netherlands.
Seite 38
Products with Radio Functionality (EMF) This product incorporates a radio transmitting and receiving device. For computers in normal use, a separation distance of 20 cm ensures that radio frequency exposure levels comply with EU requirements. Products designed to be operated at closer proximities, such as tablet computers, comply with applicable EU requirements in typical operating positions.
● this device may not cause harmful interference, and ● this device must accept any interference received, including interference that may cause undesired operation. MSI Computer Corp. 901 Canada Court, City of Industry, CA 91748, USA (626) 913-0828 www.msi.com ●...
● In the users manual of the end product, the end user has to be informed to keep at least 20cm separation with the antenna while this end product is installed and operated. The end user has to be informed that the FCC radio frequency exposure guidelines for an uncontrolled environment can be satisfied.
Seite 41
Canadian Compliance Statement This device complies with Industry Canada license-exempt RSSs. Operation is subject to the following two conditions: 1) This device may not cause interference, and 2) This device must accept any interference, including interference that may cause undesired operation of the device. Le présent appareil est conforme aux CNR d’...
Seite 42
à plus de 3 048 m (10 000 pi) d’ altitude. Chemical Substances Information In compliance with chemical substances regulations, such as the EU REACH Regulation (Regulation EC No. 1907/2006 of the European Parliament and the Council), MSI provides the information of chemical substances in products at: https://csr.msi.com/global/index...
1057. Việt Nam RoHS Kể từ ngày 01/12/2012, tất cả các sản phẩm do công ty MSI sản xuất tuân thủ Thông tư số 30/2011/TT-BCT quy định tạm thời về giới hạn hàm lượng cho phép của một số hóa...