PCIe, SXM, HGX und DGX sind nicht vier gleichwertige Arten von GPU-Servern, sondern unterschiedliche Ebenen einer Infrastrukturkette. PCIe und SXM beschreiben, wie eine GPU im Server installiert wird, HGX ist eine NVIDIA-Plattform für leistungsstarke Server von Hardwareherstellern, und DGX ist ein schlüsselfertiges NVIDIA-System. Wenn ein günstiger und flexibler Server für Inferenz, Tests, RAG oder mehrere anwendungsnahe Modelle benötigt wird, reicht meist PCIe. Wenn die Aufgabe 4 bis 8 GPUs mit schneller Verbindung zwischen den Karten erfordert, sollte man SXM/HGX prüfen. DGX ist sinnvoll, wenn nicht nur die Grafikkarten wichtig sind, sondern ein fertiges Hard- und Softwaresystem mit Support, vorhersehbarer Konfiguration und minimalen Integrationsrisiken.
Für die Auswahl eines GPU-Servers reicht es nicht, nur die GPU-Generation oder die Größe des Videospeichers zu vergleichen. Zwei Systeme mit denselben H100- oder H200-GPUs können sich sehr unterschiedlich verhalten: Das eine ist als universeller PCIe-Server aufgebaut, das zweite als dichte HGX-Plattform mit NVLink und NVSwitch, das dritte als fertiger DGX-Komplex. Der Unterschied zeigt sich bei Preis, Kühlung, Energieverbrauch, Datenaustausch zwischen GPUs, Wartungsaufwand und Anforderungen an das Rechenzentrum.
Deshalb lautet die richtige Frage nicht: „Was ist besser — PCIe, SXM, HGX oder DGX?“, sondern: „Welche Plattform passt zur konkreten Workload, zum Budget und zur Infrastruktur?“ Für ein Unternehmen, das mehrere Modelle auf einzelnen GPUs startet, kann sich der Aufpreis für eine komplexe Topologie nicht lohnen. Für ein Team, das ein großes Modell trainiert und ständig Daten zwischen mehreren GPUs austauscht, wird eine schwache Verbindung zwischen den Karten schnell zum Engpass.
Warum PCIe, SXM, HGX und DGX nicht direkt vergleichbar sind
Die größte Verwirrung entsteht dadurch, dass diese Begriffe zu unterschiedlichen Ebenen gehören.
PCIe meint in diesem Zusammenhang nicht nur die Schnittstelle beziehungsweise den Bus, sondern den klassischen Formfaktor einer Erweiterungskarte im Server. Eine GPU in dieser Ausführung wird wie andere Serverkarten in einen PCIe-Steckplatz eingesetzt: Netzwerkkarten, Controller oder Beschleuniger. In GPU-Servern bleibt PCIe die flexibelste Option: Man kann eine Konfiguration mit einer, zwei, vier oder mehr Grafikkarten aufbauen, sofern Gehäuse, Stromversorgung und Kühlung das erlauben.
SXM ist ein modularer NVIDIA-GPU-Formfaktor für dichte Serverplattformen. Eine solche GPU wird nicht wie eine PCIe-Karte in einen normalen Steckplatz eingesetzt. Sie wird auf einer speziellen Platine montiert und ist für Systeme gedacht, in denen hohe Dichte, starke Kühlung und schneller Datenaustausch zwischen den Grafikkarten wichtig sind.
HGX ist keine einzelne Grafikkarte mehr. Es ist eine NVIDIA-Plattform für Serverhersteller. Auf dieser Basis bauen OEM-Hersteller eigene GPU-Server: Sie ergänzen CPU, Arbeitsspeicher, Laufwerke, Netzwerk, Gehäuse, Netzteile, Kühlung und Serviceoptionen. In der Praxis wird HGX meist mit Systemen mit 4 oder 8 GPUs verbunden, in denen SXM-Module und eine schnelle interne Verbindung zwischen ihnen verwendet werden.
DGX ist ein fertiges NVIDIA-System. Es wird nicht als Satz einzelner Komponenten gekauft, sondern als vollständiger Komplex: Server, GPUs, NVSwitch, Netzwerk, Speicher, Software und Support werden als einheitliche Plattform geliefert. Das ist näher an einer Enterprise-Appliance, bei der der Kunde für Vorhersehbarkeit, Support und schnelle Inbetriebnahme bezahlt.
Die Hierarchie lässt sich einfacher so darstellen:
- Auf der unteren Ebene steht die GPU selbst: PCIe-Karte oder SXM-Modul.
- Darüber befindet sich die Serverplattform: zum Beispiel HGX als Basis für einen OEM-Server.
- Noch höher liegt das fertige System: DGX als abgeschlossenes NVIDIA-Produkt.
Deshalb ist die Formulierung „zwischen PCIe und DGX wählen“ nicht ganz korrekt. PCIe ist ein GPU-Formfaktor im Server, DGX dagegen ein komplettes System. Sinnvoller ist der Vergleich der Szenarien: Wird ein flexibler Server mit PCIe-GPUs benötigt, ein dichter HGX-Knoten oder ein fertiger DGX-Komplex?
Was ist ein PCIe-GPU-Server?
Ein PCIe-GPU-Server ist für die meisten Unternehmen die verständlichste und verbreitetste Variante. In einem solchen System werden Grafikkarten als Erweiterungskarten installiert. Der Server kann relativ kompakt und günstig sein, oder eine leistungsstarke 4U-Plattform mit mehreren GPUs, großzügiger Stromversorgung und durchdachtem Luftstrom.
PCIe wird gewählt, wenn Flexibilität und ein vernünftiger Einstiegspreis wichtig sind. Ein solcher Server eignet sich für Aufgaben, bei denen jede GPU relativ unabhängig arbeiten kann:
- Inferenz von Sprachmodellen;
- RAG-Systeme und Vektorsuche;
- Bild- und Videoverarbeitung;
- Modelltests;
- Analytik und Batch-Datenverarbeitung;
- VDI, Rendering und grafische Workloads;
- Dev- und Staging-Umgebungen für ML-Teams.
Für solche Szenarien sind oft nicht die maximale Verbindung zwischen GPUs entscheidend, sondern Videospeicher, Preis pro Karte, Marktverfügbarkeit, Serverkompatibilität und Wartungskosten. Für anwendungsnahe Inferenz kann man beispielsweise NVIDIA-Server-GPUs im PCIe-Formfaktor betrachten: von günstigeren Modellen bis zu Beschleunigern der oberen Klasse wie A100, H100 oder H200.
PCIe hat mehrere Stärken:
- große Auswahl an Servern und Grafikkarten;
- einfachere Auswahl einer refurbished Konfiguration;
- niedrigere Einstiegskosten im Vergleich zu dichten SXM/HGX-Systemen;
- einfacherer Austausch einzelner Karten;
- leichteres Zusammenstellen gemischter Konfigurationen für verschiedene Aufgaben;
- mehr Optionen bei Gehäusen, CPUs, Arbeitsspeicher, Laufwerken und Netzwerkkarten.
PCIe sollte jedoch nicht als universelle Lösung für jede AI-Workload verstanden werden. Dieser Ansatz hat Grenzen:
- Die GPU-Dichte ist in der Regel niedriger als bei SXM/HGX;
- der Austausch zwischen GPUs läuft häufiger über den PCIe-Bus und nicht über eine vollständige NVSwitch-Topologie;
- das effiziente Training großer Modelle auf mehreren GPUs ist schwieriger;
- die Anzahl der PCIe-Lanes und deren Verteilung zwischen Geräten, darunter zum Beispiel NVMe, sowie Riser, Netzteile und Kühlung müssen genau geprüft werden;
- nicht jeder Server, in den physisch mehrere GPUs passen, kann sie unter hoher Last wirklich ausreizen.
Ein häufiger Fehler ist der Kauf eines Servers, in den laut Beschreibung „vier GPUs passen“, ohne thermischen Betrieb, Stromversorgung und Kompatibilität der konkreten Karten zu prüfen. Am Ende können Beschleuniger ihre Frequenzen senken, überhitzen oder Anpassungen an der Konfiguration erfordern.
Was ist SXM und wie unterscheidet es sich von PCIe?
SXM ist ein modularer Server-GPU-Formfaktor von NVIDIA. Im Unterschied zu einer PCIe-Karte ist ein SXM-Modul nicht für den Einbau in einen normalen Steckplatz gedacht. Es wird in spezialisierten Plattformen eingesetzt, in denen Grafikkarten dichter angeordnet sind, mehr Leistung erhalten und an eine schnelle interne Topologie angebunden werden.
SXM findet man häufiger in Systemen, in denen viele GPUs in einem Knoten und ein schneller Austausch zwischen ihnen benötigt werden. NVIDIA führt für H100 beispielsweise SXM- und PCIe-Ausführungen auf; die SXM-Version ist dabei auf eine höhere thermische Verlustleistung und dichtere Serverkonfigurationen ausgelegt. Detaillierte H100-Spezifikationen beschreibt NVIDIA in der offiziellen Beschreibung der NVIDIA H100 Tensor Core GPU.
SXM wird nicht gewählt, weil es „einfach eine teurere GPU“ ist, sondern weil die Aufgabe selbst eine andere Serverarchitektur verlangt. Dieser Formfaktor ist sinnvoll, wenn wichtig sind:
- 4 bis 8 GPUs in einem Knoten;
- schnelle Verbindung zwischen GPUs;
- Training großer Modelle;
- Feinabstimmung von LLMs;
- High-Performance Computing;
- Rechendichte pro Rack;
- vorhersehbare Leistung unter langer Dauerlast.
SXM hat klare Vorteile:
- höhere GPU-Dichte;
- bessere Eignung für Systeme mit NVLink und NVSwitch;
- höhere Effizienz für Aufgaben, bei denen mehrere GPUs als ein gemeinsamer Rechenpool arbeiten;
- häufiger Einsatz in hochwertigen AI- und HPC-Servern;
- Aufbau leistungsstarker Knoten für Training und verteiltes Rechnen.
Gleichzeitig stellt SXM höhere Anforderungen an die Infrastruktur:
- kompatible Serverplattform;
- leistungsstarke Kühlung;
- ausreichende Stromversorgung;
- durchdachtes Servicekonzept;
- qualifizierte Wartung;
- Prüfung der Verfügbarkeit von Ersatzteilen;
- Verständnis der zukünftigen Skalierbarkeit.
In einem PCIe-Server ist der Austausch einer Karte meist einfacher: Server öffnen, Beschleuniger ausbauen, kompatible Karte einsetzen. Bei SXM/HGX-Systemen hängt alles von der Plattformkonstruktion, dem Zugang zu den Modulen, dem Kühlsystem und der Herstellerpolitik ab. Für refurbished Hardware ist das besonders wichtig: Geprüft werden müssen nicht nur die GPUs selbst, sondern auch Kühlung, Platinen, Kabel, Lüfter und Firmware.
NVLink und NVSwitch: Warum die Verbindung zwischen GPUs wichtiger sein kann als ihre Anzahl
In AI-Infrastrukturen werden GPUs oft stückweise gezählt: eine, zwei, vier, acht. Die Anzahl der Grafikkarten zeigt aber nicht immer die reale Leistung. Wenn eine Aufgabe jede GPU unabhängig nutzt, kann die Verbindungstopologie zwischen ihnen zweitrangig sein. Wird dagegen ein Modell auf mehrere GPUs verteilt, wird die Austauschgeschwindigkeit kritisch.
NVLink ist eine schnelle Verbindung zwischen GPUs. Sie ermöglicht Grafikkarten einen schnelleren Datenaustausch als die übliche Kommunikation über PCIe. NVSwitch ist ein Switch, der mehreren GPUs hilft, gleichmäßiger und mit hoher Bandbreite miteinander zu kommunizieren. In dichten Systemen ist das besonders wichtig: GPUs stehen nicht nur nebeneinander, sondern arbeiten als verbundene Rechengruppe.
Für kleinere Inferenz kann NVLink/NVSwitch kaum Einfluss auf das Ergebnis haben. Wenn ein Modell in eine GPU passt und Anfragen auf mehrere unabhängige Instanzen verteilt werden, sind andere Parameter wichtiger:
- Videospeicher;
- Kosten einer einzelnen GPU;
- Energieverbrauch;
- Kühlung;
- Anzahl gleichzeitiger Anfragen;
- Komfort der Serviceskalierung;
- Verfügbarkeit der Karten am Markt.
Beim Training großer Modelle ändert sich die Situation. Daten, Modellgewichte, Gradienten und Zwischenergebnisse werden ständig zwischen GPUs übertragen. Ist die Verbindung schwach, warten Beschleuniger einen Teil der Zeit auf Datenaustausch, statt zu rechnen. In diesem Szenario können 8 GPUs in einem dichten HGX-System und 8 PCIe-GPUs in einer weniger stark verbundenen Konfiguration sehr unterschiedliche Ergebnisse liefern.
NVLink und NVSwitch sind besonders wichtig für:
- Training großer Sprachmodelle;
- Feinabstimmung von Modellen auf mehreren GPUs;
- HPC-Aufgaben;
- verteilte Berechnungen;
- Szenarien, in denen eine Aufgabe aktiv 4 bis 8 GPUs nutzt;
- dichte GPU-Knoten, die als einheitliches System arbeiten sollen.
Auf eine komplexe Topologie kann man verzichten, wenn sich die Last in unabhängige Teile aufteilen lässt:
- mehrere Modelle bedienen unterschiedliche Anfragen;
- jede GPU ist mit einem eigenen Inferenzservice belegt;
- der Server wird für Batch-Verarbeitung genutzt;
- das Team startet Tests und Experimente;
- die Hauptaufgabe ist Rendering, VDI oder Visualisierung.
Vor dem Kauf sollte daher nicht nur geklärt werden, „wie viele GPUs benötigt werden“, sondern auch, „wie genau die Anwendung mehrere GPUs nutzt“. Das beeinflusst die Wahl stärker, als es in der Beschaffungsphase zunächst scheint.
Was ist HGX und wann wird es benötigt?
Bildquelle: offizielle Seite der NVIDIA HGX Platform.
HGX ist eine NVIDIA-Plattform für Serverhersteller. Man kann sie als Grundlage verstehen, auf der ein leistungsstarker OEM-GPU-Server aufgebaut wird. NVIDIA beschreibt HGX als Plattform, die GPUs, NVLink, Netzwerktechnologien und Software-Stack für AI- und HPC-Aufgaben zusammenführt: NVIDIA HGX Platform.
In der realen Beschaffung bedeutet das: Der Kunde kauft nicht „HGX an sich“, sondern einen Server von Dell, HPE, Lenovo, Supermicro oder einem anderen Hersteller, der auf HGX basiert. In einem solchen System können mehrere SXM-GPUs, NVSwitch, Prozessoren, Arbeitsspeicher, Laufwerke, Netzwerkadapter und die vom jeweiligen OEM gewählte Kühlung verbaut sein.
HGX wird dort benötigt, wo PCIe die Aufgabe bereits begrenzt. Meist geht es um Szenarien, in denen 4 oder 8 leistungsstarke GPUs in einem Knoten und eine hohe Austauschgeschwindigkeit zwischen ihnen erforderlich sind. Zum Beispiel:
- Training großer Modelle;
- Feinabstimmung von LLMs;
- HPC;
- große RAG-Plattformen mit schweren Modellen;
- Forschungscluster;
- unternehmensweite AI-Plattformen;
- Aufgaben, bei denen hohe GPU-Dichte pro Rack wichtig ist.
HGX hat gegenüber DGX einen wichtigen Vorteil: mehr Auswahl bei Herstellern und Konfigurationen. Ein OEM-Server lässt sich nach konkreten Anforderungen auswählen: CPU, Arbeitsspeicher, lokaler Speicher, Netzwerkadapter, Garantie, Servicemodell und Budget. Für Unternehmen, die eine leistungsstarke GPU-Plattform wollen, aber nicht zwingend ein schlüsselfertiges NVIDIA-System benötigen, ist das oft der flexiblere Weg.
Für Training und Feinabstimmung kann man beispielsweise Server mit GPUs der Klasse NVIDIA H100 80 GB oder NVIDIA H200 betrachten. Die tatsächliche Effizienz hängt jedoch nicht nur von den Karten selbst ab. Wichtig sind Topologie, Kühlung, Netzwerk, CPU, Speicher und die Fähigkeit des Software-Stacks, mehrere GPUs zu nutzen.
Auch die Nachteile von HGX sollten vorher berücksichtigt werden:
- hohe Einstiegskosten;
- ernsthafte Anforderungen an Rack und Stromversorgung;
- hohe thermische Dichte;
- Abhängigkeit von der konkreten OEM-Konfiguration;
- komplexere Wartung;
- Notwendigkeit, Netzwerk und Software separat zu planen;
- weniger Freiheit für eine „schrittweise“ Erweiterung im Vergleich zu einfachen PCIe-Servern.
HGX passt gut, wenn das Unternehmen seine Workloads bereits versteht und bereit ist, Infrastruktur zu planen. Ist die Aufgabe dagegen noch experimentell, das Budget begrenzt und das Team noch bei der Modellauswahl, kann der Einstieg mit HGX verfrüht sein.
Was ist DGX und wie unterscheidet es sich von einem HGX-Server?
Abbildung eines DGX H100/H200-Systems mit Frontblende.
Bildquelle: offizielles NVIDIA-Handbuch DGX H100/H200 System User Guide.
DGX ist ein fertiges NVIDIA-System für AI-Infrastruktur. Im Unterschied zu HGX, das als Plattform für OEM-Server dient, wird DGX als abgeschlossenes Produkt geliefert. GPU, CPU, NVSwitch, Speicher, Laufwerke, Netzwerk, Kühlung, Softwareumgebung und Support sind bereits Teil des Systems.
Im NVIDIA DGX H100/H200-Handbuch werden zum Beispiel Konfigurationen mit 8 H100- oder 8 H200-GPUs, NVSwitch und einem vordefinierten Komponentensatz beschrieben: NVIDIA DGX H100/H200 User Guide. Das ist nicht einfach ein „Server mit acht Grafikkarten“, sondern eine standardisierte Plattform für Enterprise AI.
DGX wird gewählt, wenn wichtig sind:
- schneller Start einer großen AI-Infrastruktur;
- einheitlicher Support;
- vorhersehbare Konfiguration;
- fertiger Software-Stack;
- Reduzierung von Integrationsrisiken;
- verständliches Betriebsmodell;
- Skalierung innerhalb des NVIDIA-Ökosystems.
Für ein großes Unternehmen kann DGX gerechtfertigt sein, wenn die Kosten von Ausfallzeiten, Projektverzögerungen und Kompatibilitätsrisiken höher sind als die Einsparung durch Eigenintegration. Dieser Ansatz ist besonders attraktiv für Teams, die nicht nur Rechenleistung benötigen, sondern eine fertige Plattform für Entwicklung, Training und Betrieb von Modellen.
DGX ist jedoch nicht immer rational. Es kann überdimensioniert sein, wenn:
- nur ein Server für Inferenz benötigt wird;
- Modelle in eine oder zwei GPUs passen;
- das Team Treiber, Container und Monitoring selbst betreuen kann;
- bereits Erfahrung mit dem Betrieb von OEM-Servern vorhanden ist;
- das Budget begrenzt ist;
- die Rechenzentrumsinfrastruktur nicht für diese Dichte vorbereitet ist.
Wichtig ist, „am leistungsstärksten“ nicht mit „am passendsten“ zu verwechseln. DGX kann die beste Wahl für eine Enterprise-AI-Plattform sein, ist aber für anwendungsnahe Inferenz, Tests oder ein kleines ML-Team oft zu teuer und zu unflexibel.
Vergleich von PCIe, SXM, HGX und DGX
| Kriterium | PCIe-GPU-Server | SXM-GPU | HGX-Server | DGX-System |
|---|---|---|---|---|
| Was ist das? | Server mit PCIe-GPU-Karten | GPU-Modulformfaktor | NVIDIA-Plattform für OEM-Server | Fertiges NVIDIA-System |
| Ebene | Karte und Serverkonfiguration | GPU-Modul | Plattform im Server | Abgeschlossenes Produkt |
| Typische Dichte | Von 1 bis mehreren GPUs, abhängig vom Server | Häufig 4 bis 8 GPUs in dichten Systemen | Meist 4 bis 8 GPUs in OEM-Systemen | Standardisierte Hochdichte-Konfiguration |
| Verbindung zwischen GPUs | PCIe, manchmal NVLink-Brücken | Häufig NVLink/NVSwitch | NVLink/NVSwitch | NVLink/NVSwitch und fertige Systemarchitektur |
| Flexibilität | Hoch | Niedriger | Mittel | Niedriger, aber stärker standardisiert |
| Einstiegskosten | Meist niedriger | Höher | Hoch | Sehr hoch |
| Wartung | Einzelne Karten lassen sich einfacher austauschen | Hängt von der Plattform ab | Hängt vom OEM ab | Über das NVIDIA-Ökosystem und Partner |
| Wann wählen? | Inferenz, RAG, Tests, universelle Aufgaben | Dichte Berechnungen | Training, HPC, 4 bis 8 GPUs | Enterprise AI schlüsselfertig |
PCIe ist keine „schwache Version von HGX“, sondern eine andere Lösungsklasse. Sie passt besser zu flexiblen Aufgaben und moderaten Budgets. SXM/HGX werden benötigt, wenn Dichte und Austausch zwischen GPUs wichtig sind. DGX ist sinnvoll, wenn das Unternehmen nicht nur einen Server kauft, sondern eine fertige Plattform mit Support.
Wie wählt man die Plattform nach Aufgabe?
Budgetorientierte Inferenz
Für Inferenz reicht meistens ein PCIe-Server. Das gilt besonders, wenn Modelle in eine GPU passen und die Last zwischen unabhängigen Instanzen verteilt werden kann.
Eine passende Konfiguration kann enthalten:
- 1 bis 2 GPUs für den Start;
- 2 bis 4 GPUs für mehrere Services;
- ausreichend Arbeitsspeicher;
- schnelle NVMe-Laufwerke für Modelle und Indizes;
- Netzwerkschnittstelle passend zur Anzahl der Anfragen;
- ausreichende Reserven bei Stromversorgung und Kühlung.
Für solche Aufgaben sind nicht immer Top-Beschleuniger wie H100 oder H200 erforderlich. Manchmal ist es rationaler, günstigere GPUs zu wählen, zum Beispiel NVIDIA L40S 48 GB für universelle AI- und Grafikszenarien oder andere PCIe-Karten mit passendem Videospeicher.
Universeller GPU-Server für das Unternehmen
Wenn der Server nicht für ein einzelnes Modell, sondern als gemeinsame Rechenplattform benötigt wird, bleibt PCIe die flexibelste Option. Ein solcher Server kann genutzt werden für:
- Inferenz;
- RAG;
- Tests neuer Modelle;
- Analytik;
- Bildverarbeitung;
- ML-Experimente;
- interne Services mehrerer Teams.
In diesem Szenario zählt nicht maximale Dichte, sondern Balance. Man sollte vorab prüfen, ob man mit einer oder zwei GPUs starten und den Server später erweitern kann. Diese Erweiterung muss aber real sein und nicht nur in der Spezifikation stehen: Es braucht freie Slots, passende Riser, ausreichende Netzteilleistung und einen korrekten Luftstrom.
Training großer Modelle
Beim Training großer Modelle kann PCIe schnell an Grenzen stoßen. Wenn ein Modell auf mehrere GPUs verteilt wird und ständig Datenaustausch zwischen ihnen stattfindet, sind NVLink, NVSwitch und eine dichte Topologie wichtig.
Hier werden häufiger SXM+HGX-Systeme betrachtet. Solche Systeme eignen sich besser für:
- Training von Modellen von Grund auf;
- Feinabstimmung von LLMs;
- Aufgaben mit vielen Parametern;
- HPC;
- Szenarien, in denen ein Prozess aktiv 4 bis 8 GPUs nutzt.
In diesem Bereich darf die Wahl nicht nur nach dem Preis einer einzelnen GPU getroffen werden. Entscheidend ist, wie das gesamte System unter Last arbeitet: CPU, Arbeitsspeicher, Netzwerk, lokaler Speicher, Kühlung, Treiber, Container, Job-Scheduler und Monitoring.
Schlüsselfertiges Unternehmenssystem
DGX sollte geprüft werden, wenn ein Unternehmen nicht nur einen Server, sondern eine standardisierte AI-Plattform erhalten möchte. Das ist eine Option, wenn wichtig sind:
- einheitlicher Support;
- schneller Start;
- vorhersehbare Architektur;
- reduzierte Integrationsrisiken;
- klarer Skalierungspfad;
- Bereitschaft für große Enterprise-AI-Projekte.
DGX ist selten der optimale erste Schritt für ein kleines Team. Für eine große Organisation, in der Verzögerungen und Integrationsfehler teurer sind als die Hardware selbst, kann ein solches System jedoch gerechtfertigt sein.
Plattformwahl nach Szenario
| Szenario | Was wählen? | Warum? | Was prüfen? |
|---|---|---|---|
| 1 bis 2 Modelle für Inferenz | PCIe | Günstiger und flexibler | Videospeicher, Kühlung, Energieverbrauch |
| Mehrere interne AI-Services | PCIe mit 2 bis 4 GPUs | Workloads lassen sich trennen | Job-Planung, Monitoring, Stromreserve |
| RAG und Enterprise-AI-Services | PCIe oder HGX | Hängt von der Modellgröße ab | RAM, NVMe, Netzwerk, GPU-Speicher |
| Feinabstimmung von LLMs | SXM/HGX | Verbindung zwischen GPUs ist wichtig | NVLink/NVSwitch, Netzwerk zwischen Knoten |
| Training großer Modelle | HGX oder DGX | Dichte und Skalierung werden benötigt | Rechenzentrum, Stromversorgung, Kühlung |
| Enterprise AI schlüsselfertig | DGX | Weniger Integrationsrisiken | Budget, Support, Lieferzeiten |
| Rendering, VDI, Visualisierung | PCIe | NVSwitch ist nicht immer nötig | Treiber, vGPU, Lizenzen, Kompatibilität |
Diese Tabelle ersetzt keine Konfigurationsberechnung, hilft aber dabei, ungeeignete Varianten schnell auszusortieren. Wenn die Aufgabe keinen permanenten Austausch zwischen GPUs erfordert, sollte man mit PCIe beginnen. Wenn mehrere GPUs als ein gemeinsamer Rechenknoten arbeiten müssen, sollte man SXM/HGX prüfen. Wenn eine fertige Unternehmensplattform benötigt wird, sollte DGX bewertet werden.
Was vor dem Kauf eines GPU-Servers geprüft werden sollte
Ein GPU-Server darf nicht nur nach dem Namen der Grafikkarte ausgewählt werden. Das gilt besonders bei H100, H200, A100 oder dichten Systemen mit mehreren GPUs. Ein Fehler bei Rack, Stromversorgung oder Kühlung kann die Vorteile teurer Beschleuniger zunichtemachen.
Rack und physische Installation
Vor dem Kauf sollte geprüft werden:
- Serverhöhe;
- Racktiefe;
- Gewicht der Ausrüstung;
- Zugang von vorne und hinten;
- Platz für Kabel;
- Möglichkeit, den Server sicher herauszuziehen und zu warten;
- Kompatibilität mit Schienen;
- Belastungsgrenzen des Racks.
Leistungsstarke GPU-Server sind oft schwerer und tiefer als normale Rechenknoten. Wenn der Server physisch nicht ins Rack passt oder sich schwer warten lässt, wird daraus schnell ein Betriebsproblem.
Stromversorgung
Vorab muss nicht nur der Verbrauch der GPUs berechnet werden, sondern der des gesamten Systems:
- CPU;
- Arbeitsspeicher;
- Laufwerke;
- Netzwerkkarten;
- Lüfter;
- Controller;
- Reserve für Spitzenlast.
Separat geprüft werden:
- Leistung der Netzteile;
- Redundanzschema;
- Kabeltypen;
- PDU;
- verfügbare Leistung pro Rack;
- Anforderungen des Rechenzentrums;
- Möglichkeit einer späteren Erweiterung.
Ein Server mit mehreren leistungsstarken GPUs kann so viel Energie benötigen, dass ein normaler Büroraum-Serverraum oder ein unvorbereitetes Rack nicht ausreicht. Das ist besonders wichtig für SXM/HGX und DGX.
Kühlung
GPUs erzeugen unter langer Last viel Wärme. Unzureichende Kühlung führt nicht nur zu Ausfallrisiken, sondern auch zu Leistungsabfall: Beschleuniger können ihre Frequenzen begrenzen, um nicht zu überhitzen.
Geprüft werden sollte:
- ob Luft- oder Flüssigkeitskühlung verwendet wird;
- Richtung des Luftstroms;
- zulässige Eintrittstemperatur;
- Wärmedichte pro Rack;
- Zustand der Lüfter;
- Vorhandensein korrekter Blindblenden und Luftführungen;
- Zustand von Kühlkörpern und Wärmeleitpads;
- Herstelleranforderungen an die Platzierung.
Bei refurbished Servern ist der Zustand des Kühlsystems separat zu prüfen. Eine gute GPU in einem schlechten thermischen Kreislauf liefert nicht die erwartete Leistung.
Netzwerk
Wenn der Server nur für lokale Inferenz genutzt wird, kann das Netzwerk relativ einfach sein. Bei Training, RAG, großen Datensätzen und Skalierung auf mehrere Knoten wird das Netzwerk jedoch kritisch.
Vor dem Kauf sollte geklärt werden:
- ob der Server allein oder im Cluster arbeitet;
- ob 100/200/400 GbE oder InfiniBand benötigt wird;
- wo Datensätze gespeichert sind;
- wie schnell Modelle und Daten in den Server geladen werden müssen;
- wie viele Nutzer oder Services auf die GPUs zugreifen;
- ob passende Switches vorhanden sind;
- ob das Netzwerk zum Hauptengpass werden kann.
Eine GPU ist im Leerlauf genauso teuer wie im Betrieb. Wenn Daten nicht schnell genug zum Server gelangen, bringt der Kauf leistungsstarker Beschleuniger nicht den erwarteten Effekt.
Software, Treiber und Management
Die Hardware ist nur die Hälfte des Projekts. Vorab sollte die Softwareumgebung geprüft werden:
- NVIDIA-Treiberversionen;
- CUDA-Kompatibilität;
- Container-Unterstützung;
- Kubernetes, falls es verwendet wird;
- GPU-Monitoring;
- Job-Management;
- Unterstützung von MIG oder vGPU, wenn Ressourcen geteilt werden sollen;
- Firmware-Updates;
- Kompatibilität mit Frameworks.
Für einen universellen Server, der von mehreren Teams genutzt wird, kann es zum Beispiel wichtig sein, GPUs zwischen Aufgaben aufzuteilen. Dann muss vorher klar sein, ob die gewählte Karte MIG unterstützt, wie die Aufgabenplanung organisiert wird und wer für das Monitoring verantwortlich ist.
Für solche Szenarien wird häufig die NVIDIA A100 80 GB PCIe betrachtet, weil sie sowohl für Inferenz als auch für schwerere AI-Workloads interessant sein kann. Die tatsächliche Eignung hängt aber von der Plattform ab, nicht nur vom GPU-Namen.
Garantie, Lieferung und Erweiterung
GPU-Server werden nicht für einen Monat gekauft. Deshalb ist es wichtig zu prüfen:
- Garantielaufzeit;
- wer Reparaturen ausführt;
- ob Ersatzkomponenten verfügbar sind;
- ob kompatible GPUs verfügbar sind;
- ob der Server später erweitert werden kann;
- ob Stromversorgung und Kühlung für die Erweiterung ausreichen;
- ob Reserve bei PCIe-Steckplätzen vorhanden ist;
- welche Lieferzeiten die benötigten Karten haben;
- wie schnell eine ausgefallene Komponente ersetzt werden kann.
Im refurbished Segment ist das besonders wichtig. Die Einsparung beim Kauf sollte mit verständlicher Garantie, geprüfter Hardware und realer Wartbarkeit verbunden sein.
Häufige Fehler bei der Auswahl von PCIe, SXM, HGX und DGX
- PCIe, SXM, HGX und DGX als gleiche Kategorien vergleichen. Das führt zu falschen Schlussfolgerungen: zum Beispiel „DGX ist besser als PCIe“, obwohl in Wirklichkeit ein fertiges System mit einem GPU-Formfaktor verglichen wird.
- Maximale GPU-Anzahl kaufen, ohne die Workload zu verstehen. Wenn Aufgaben unabhängig sind, können mehrere GPUs auch ohne komplexe Topologie effizient genutzt werden. Wenn die Aufgabe einheitlich und verteilt ist, wird eine schwache GPU-Verbindung zur Grenze.
- Annehmen, dass NVLink und NVSwitch immer nötig sind. Für das Training großer Modelle können sie kritisch sein. Für einzelne Inferenzservices ist ihre Bedeutung oft deutlich geringer.
- PCIe als „schwache“ Variante betrachten. Ein PCIe-Server kann eine ausgezeichnete Wahl für Inferenz, RAG, Tests, VDI, Rendering und gemischte Unternehmensaufgaben sein.
- SXM/HGX kaufen, ohne das Rechenzentrum zu prüfen. Solche Systeme benötigen Stromversorgung, Kühlung, Platz, das richtige Rack und Servicezugang. Ist die Infrastruktur nicht vorbereitet, kann der Server im Betrieb komplizierter werden als erwartet.
- Das Netzwerk vergessen. Für mehrere GPUs innerhalb eines Servers ist die interne Topologie wichtig. Für mehrere Server ist das Netzwerk zwischen den Knoten wichtig. Ohne es kann ein Cluster seine Leistung nicht entfalten.
- Nur auf den GPU-Preis schauen. Zu den Gesamtkosten gehören Server, Strom, Kühlung, Netzwerk, Support, Reparatur, Ausfallzeiten, Lizenzen und Teamaufwand.
- DGX dort kaufen, wo ein OEM-PCIe-Server reicht. DGX ist als fertige Enterprise-Plattform stark, kann aber für kleine Aufgaben zu teuer sein.
- PCIe dort kaufen, wo eine dichte GPU-Topologie benötigt wird. Wenn ein Modell aktiv 4 bis 8 GPUs als gemeinsamen Pool nutzt, sollten SXM/HGX oder DGX vorher geprüft werden.
- Zukünftige Anforderungen nicht berücksichtigen. Heute reicht vielleicht eine GPU, in einem Jahr werden aber mehr Speicher, mehr Netzwerkbandbreite oder eine andere Topologie benötigt. Man sollte im Voraus verstehen, wo die Wachstumsgrenze der gewählten Plattform liegt.
Wie wählt man eine GPU-Plattform ohne unnötige Mehrkosten?
Man sollte nicht mit dem GPU-Namen beginnen, sondern mit der Aufgabe. Die Reihenfolge kann so aussehen:
- Workload-Typ bestimmen: Inferenz, Training, RAG, HPC, Grafik, VDI oder gemischte Aufgaben.
- Prüfen, ob das Modell in eine GPU passt.
- Bewerten, ob GPUs ständig Daten austauschen müssen.
- Benötigten Videospeicher berechnen.
- Festlegen, wie viele Nutzer, Services oder Teams den Server verwenden.
- Anforderungen an Netzwerk und Speicher prüfen.
- Grenzen von Rack, Stromversorgung und Kühlung bewerten.
- Entscheiden, ob Flexibilität oder ein fertiges standardisiertes System wichtiger ist.
- Kaufkosten und Gesamtbetriebskosten vergleichen.
- Garantie, Lieferzeiten und Erweiterbarkeit prüfen.
Danach wird die Wahl meist klarer:
- PCIe — wenn Flexibilität, moderates Budget und ein universeller Server benötigt werden;
- SXM/HGX — wenn dichte Berechnungen und schnelle Verbindung zwischen mehreren GPUs erforderlich sind;
- DGX — wenn eine fertige Enterprise-Plattform mit Support und minimalen Integrationsrisiken benötigt wird.
Für universelle Aufgaben im PCIe-Segment kann man auch neue Serverkarten wie die NVIDIA RTX PRO 6000 Blackwell Server Edition betrachten, wenn großer Videospeicher, moderne AI-Funktionen und Kompatibilität mit Serverszenarien wichtig sind. Auch hier hängt die endgültige Wahl aber von Workload, Gehäuse, Stromversorgung und Kühlung ab.
Was in den meisten Fällen gewählt werden sollte
Für die meisten Unternehmen ist ein PCIe-GPU-Server der erste Kandidat. Er ist flexibler, günstiger, einfacher zu warten und besser geeignet für Inferenz, RAG, Tests, Analytik, Grafik und gemischte Aufgaben. Diese Variante ist besonders gut, wenn die Last auf unabhängige GPUs verteilt werden kann und kein ständiger Datenaustausch zwischen allen Beschleunigern erforderlich ist.
SXM/HGX sollte gewählt werden, wenn die Aufgabe über einen universellen PCIe-Server hinausgewachsen ist. Das sind Szenarien mit 4 bis 8 GPUs, Training großer Modelle, HPC und hoher Rechendichte. Hier zählen nicht nur die GPUs selbst, sondern auch NVLink, NVSwitch, Kühlung, Stromversorgung, Netzwerk und die Bereitschaft des Rechenzentrums.
DGX ist gerechtfertigt, wenn ein Unternehmen nicht nur einen Server, sondern eine fertige AI-Plattform kaufen möchte. Das ist eine Wahl für Enterprise-Szenarien, in denen Standardisierung, Support, schneller Start und geringere Integrationsrisiken wichtig sind. Für kleine Teams und anwendungsnahe Inferenz ist DGX jedoch oft überdimensioniert.
Die beste Plattform „an sich“ gibt es nicht. Es gibt nur die passende Plattform für eine konkrete Workload, ein Budget, einen Zeitplan und eine Infrastruktur. Deshalb sollte man vor dem Kauf eines GPU-Servers zuerst Nutzungsszenario, Anforderungen an Videospeicher, GPU-Anzahl, Netzwerk, Stromversorgung und Kühlung beschreiben. Das hilft, nicht für ein überdimensioniertes System zu viel zu bezahlen und keinen Server zu kaufen, der das Potenzial der installierten GPUs nicht ausschöpfen kann.