Anmelden
Antrag auf Garantieservice

Im Falle eines Problems bieten wir Diagnosen und Reparaturen am Installationsort des Servers an. Kostenfrei.

Sprache

1, 2, 4 oder 8 GPUs in einem Server: So wählen Sie die optimale Konfiguration für LLM, Inferenz, Training und Rendering.

1, 2, 4 oder 8 GPUs im Server

Wenn das Modell, die Szene oder die Workload in den Speicher einer einzelnen Grafikkarte passt und keine permanente parallele Verarbeitung erfordert, reicht in den meisten Fällen 1 GPU. 2 GPUs sind sinnvoll als erster Schritt zur Skalierung, 4 GPUs werden häufig zur ausgewogensten Variante für Inferenz, Feinabstimmung, Rendering und gemischte Aufgaben, während 8 GPUs nur dann gewählt werden sollten, wenn die Aufgabe tatsächlich alle Karten nutzen kann und die Serverinfrastruktur für Stromversorgung, Kühlung, Topologie und Lizenzierung einer solchen Plattform vorbereitet ist.

Die Anzahl der Grafikkarten im Server garantiert für sich genommen keine Leistung. Ein Server mit 8 GPUs kann langsamer oder pro nützlicher Arbeitseinheit teurer sein als ein Server mit 4 GPUs, wenn sich das Modell schlecht auf mehrere Karten verteilen lässt, Daten durch einen PCIe-Engpass laufen, ein Teil der GPUs im Leerlauf bleibt oder die Kühlung keine stabilen Taktraten ermöglicht.

Die richtige Auswahl beginnt nicht mit der Frage „Wie viele GPUs passen in das Gehäuse?“, sondern mit anderen Fragen:

  • Passt das Modell, die Szene oder das Benutzerprofil in den Speicher einer einzelnen GPU?
  • Ist eine möglichst geringe Antwortlatenz wichtiger oder der gesamte Durchsatz?
  • Lässt sich die Aufgabe ohne große Effizienzverluste auf mehrere GPUs verteilen?
  • Wird eine schnelle Verbindung zwischen GPUs über NVLink oder NVSwitch benötigt?
  • Ist die Last dauerhaft oder unregelmäßig?
  • Ist ein großer Server wirtschaftlicher oder mehrere kleinere Nodes?

Für die Auswahl konkreter Karten kann man sich an NVIDIA-GPUs orientieren. Die Anzahl der GPUs sollte jedoch erst nach der Analyse der Workload festgelegt werden, nicht vorher.

Wann 1, 2, 4 oder 8 GPUs sinnvoll sind

Konfiguration Wann sie passt Typische Aufgaben Hauptrisiko
1 GPU Das Modell oder die Szene passt in den Speicher einer Karte, die Last ist moderat Test-Inferenz für LLMs, Entwicklung, kleineres Rendering, VDI-Pilot Zu wenig Videospeicher und Bandbreite bei wachsender Last
2 GPUs Es wird mehr Speicherreserve oder mehr Parallelität benötigt Zwei Modellkopien, Feinabstimmung, Rendering, zwei unabhängige Services Schwache GPU-zu-GPU-Verbindung oder fehlende Multi-GPU-Unterstützung in der Software
4 GPUs Mehrere parallele Aufgaben und eine flexiblere Ressourcenverteilung werden benötigt Batch-Inferenz, Feinabstimmung, Render-Farm, VDI, Arbeit mehrerer Teams Ein Teil der GPUs kann ohne Scheduler und Monitoring ungenutzt bleiben
8 GPUs Eine schwere Aufgabe oder eine konstante Aufgabenwarteschlange nutzt wirklich alle Karten Großes Training, große LLMs, dichte Inferenz, HGX-Systeme Hohe Kosten, Stromversorgung, Kühlung und Betriebskomplexität
Mehrere Server Die Last lässt sich leicht in unabhängige Teile aufteilen, zwischen Hosts gibt es ein Low-Latency-Netzwerk Render-Farm, mehrere Inferenz-Services, VDI-Pools Cluster, Netzwerk und Updates sind aufwendiger zu verwalten

Diese Tabelle hilft bei der ersten Orientierung, ersetzt aber keine Berechnung. 8 GPUs sind zum Beispiel nützlich, wenn ein großes Modell trainiert wird, das auf mehrere Karten verteilt ist und intensiv Daten zwischen ihnen austauscht. Für eine Render-Farm, in der Frames unabhängig voneinander berechnet werden, können dagegen mehrere Server mit jeweils 2–4 GPUs praktischer und ausfallsicherer sein.

Auch die umgekehrte Situation kommt vor: Eine leistungsstarke GPU mit viel Videospeicher ist besser als zwei schwächere Karten. Wenn ein Modell nicht effizient auf mehrere GPUs verteilt werden kann, löst eine zweite Karte das Speicherproblem nicht und kann zusätzliche Verzögerungen durch Datenaustausch verursachen.

Wie man die Entscheidung trifft

Auswahl einer GPU-Server-Konfiguration

Passt das Modell, die Szene oder das Benutzerprofil in den Speicher einer einzelnen GPU?

Wenn ja, kann man meistens mit einer Karte beginnen. Das ist besonders sinnvoll für:

  • LLM-Prototypen;
  • einen internen Assistenten mit moderater Last;
  • einen Teststand für die Feinabstimmung;
  • einen einzelnen 3D-Spezialisten;
  • ein VDI-Pilotprojekt;
  • eine kleine Warteschlange für Rendering-Aufgaben.

Wenn nicht, muss man verstehen, warum genau der Speicher nicht ausreicht. Manchmal helfen eine geringere Rechengenauigkeit, Modelloptimierung, ein kürzerer Kontext oder eine sorgfältigere Datenverarbeitung. Wenn das Modell physisch nicht in eine GPU passt, muss man jedoch Karten mit größerem Speicher oder Multi-GPU-Konfigurationen betrachten.

Für große LLMs ist oft nicht nur die Anzahl der Karten wichtig, sondern vor allem Volumen und Geschwindigkeit des Speichers. NVIDIA H200 ist zum Beispiel dort interessant, wo Modell und langer Kontext an Videospeicher und Speicherbandbreite stoßen. In der offiziellen Beschreibung der NVIDIA H200 werden 141 GB HBM3e und eine hohe Speicherbandbreite genannt, weshalb solche Karten für große LLM- und HPC-Aufgaben in Betracht gezogen werden: NVIDIA H200.

Ist die Latenz einer einzelnen Anfrage wichtiger oder der gesamte Aufgabendurchsatz?

Für LLM-Inferenz ist das eine der zentralen Fragen.

Wenn eine minimale Antwortlatenz wichtig ist, lohnt es sich nicht immer, ein Modell auf mehrere GPUs aufzuteilen. Die Datenübertragung zwischen Karten kann zusätzliche Latenz erzeugen, besonders wenn die Verbindung nur über PCIe läuft. In diesem Fall ist eine stärkere einzelne GPU mit mehr Speicher oder ein 2-GPU-System mit guter Topologie oft besser.

Wenn dagegen der Gesamtdurchsatz der Anfragen entscheidend ist, ändert sich die Situation. Man kann mehrere Modellkopien auf verschiedenen GPUs starten, Anfragen bündeln und Benutzer auf die Karten verteilen. Dann können 4 GPUs einen guten Leistungszuwachs bringen, weil jede Karte ihren eigenen Teil der Last bedient.

Ist die Last unabhängig oder eng gekoppelt?

Unabhängige Aufgaben skalieren einfacher. Dazu gehören:

  • Rendering einzelner Frames;
  • mehrere unabhängige Modelle;
  • separate Inferenz-Services;
  • unterschiedliche Entwicklungsteams;
  • VDI-Benutzer mit verschiedenen Profilen;
  • Test- und Produktionslasten, die auf verschiedene GPUs aufgeteilt werden können.

Für solche Szenarien ist nicht immer ein großer 8-GPU-Server nötig. Manchmal ist es wirtschaftlicher, 2–4 GPUs in einem Server oder mehrere einzelne Nodes mit je 1 GPU zu verwenden.

Eng gekoppelte Aufgaben sind schwieriger. Dazu gehören das Training eines großen Modells, die Aufteilung eines LLM auf mehrere GPUs oder die Inferenz eines Modells, das nicht in eine einzelne Karte passt. Hier tauschen GPUs ständig Daten aus. Deshalb ist nicht nur die Leistung der Karten wichtig, sondern auch die Art, wie sie miteinander verbunden sind. NVIDIA beschreibt NVLink und NVSwitch gesondert als Hochgeschwindigkeitsverbindungen zwischen GPUs für Aufgaben, bei denen Datenaustausch kritisch ist: NVIDIA NVLink.

Ein großer Server oder mehrere kleinere?

Ein großer Server ist besser, wenn:

  • das Modell als eine zusammenhängende Aufgabe laufen muss;
  • schneller Austausch zwischen GPUs benötigt wird;
  • 4–8 GPUs mit NVSwitch eingesetzt werden;
  • die Latenz zwischen Nodes kritisch ist;
  • das Team eine dichte GPU-Plattform administrieren kann.

Mehrere kleinere Server sind besser, wenn:

  • die Aufgaben unabhängig sind;
  • Ausfallsicherheit wichtig ist;
  • die Last schrittweise wächst;
  • verschiedene Teams unterschiedliche GPU-Profile verwenden;
  • Rendering oder Inferenz horizontal verteilt werden können;
  • Stromversorgung und Kühlung im Rack begrenzt sind.

Für Rendering, VDI und mehrere unabhängige Inferenz-Services ist horizontale Skalierung häufig bequemer. Für das Training eines großen Modells oder schwere LLM-Inferenz kann ein einzelner Server mit der richtigen Verbindung zwischen GPUs effizienter sein.

Wie unterschiedliche Aufgaben mehrere GPUs nutzen

Dell PowerEdge R760xa

PowerEdge R760xa. Bildquelle: ServerMall

Dell beschreibt den PowerEdge R760xa als luftgekühlten Server für AI/ML-Training, Inferenz, Analyse und VDI.

LLM-Inferenz

Inferenz ist der Betrieb eines bereits trainierten Modells: Antworten eines Chatbots, Dokumentenanalyse, Codegenerierung, Klassifikation oder Suche in einer Wissensdatenbank. Für LLMs sind nicht nur Berechnungen wichtig, sondern auch Speicher: Modell, Kontext und Zwischendaten müssen irgendwo abgelegt werden.

Die Auswahl der GPU-Anzahl hängt ab von:

  • der Modellgröße;
  • der Kontextlänge;
  • der Anzahl gleichzeitiger Benutzer;
  • den Anforderungen an die Antwortlatenz;
  • dem Videospeichervolumen;
  • der Speichergeschwindigkeit;
  • der Möglichkeit, mehrere Modellkopien auszuführen;
  • der Unterstützung für Batch-Verarbeitung von Anfragen.

1 GPU passt, wenn das Modell in den Speicher der Karte passt, nur wenige Benutzer vorhanden sind und Latenz wichtiger ist als maximaler Durchsatz. Das ist eine gute Option für einen internen Assistenten, einen Pilotbetrieb oder einen Service mit unregelmäßiger Last.

2 GPUs sind sinnvoll, wenn das Modell fast in eine Karte passt, Speicherreserve benötigt wird oder zwei unabhängige Servicekopien laufen sollen. Wichtig ist hier zu prüfen, ob die gewählte Software die Modellaufteilung auf mehrere GPUs unterstützt.

4 GPUs sind meist praktisch für Produktionsinferenz, wenn mehrere Modelle, ein stabiler Anfragestrom oder verschiedene Benutzergruppen vorhanden sind. Man kann eine GPU für ein Modell, die zweite für ein anderes, die dritte für Tests und die vierte als Reserve oder für Lastspitzen reservieren.

8 GPUs lohnen sich für große Modelle und dichte Inferenz, wenn es eine konstante Warteschlange von Anfragen gibt und die Software das Modell auf mehrere Karten verteilen kann. In der Dokumentation zu NVIDIA Triton und TensorRT-LLM wird die Multi-GPU- und Multi-Node-Bereitstellung großer Sprachmodelle in Kubernetes gesondert beschrieben.

Training und Feinabstimmung von Modellen

Training von Grund auf ist die schwerste Aufgabe für GPUs. Feinabstimmung benötigt meist weniger Ressourcen, kann aber ebenfalls an Videospeicher, Datenaustausch zwischen GPUs und Datenvorbereitung stoßen.

Es gibt mehrere Skalierungsansätze.

Datenparallelität.
Jede GPU erhält ihren Teil der Daten, berechnet das Ergebnis, danach werden die Parameter synchronisiert. Dieser Ansatz ist verständlich und verbreitet. Mit wachsender GPU-Anzahl kann der Datenaustausch jedoch die Beschleunigung begrenzen.

Modellaufteilung auf mehrere GPUs.
Das Modell wird in Teile aufgeteilt. Dieser Ansatz ist nötig, wenn es nicht in den Speicher einer einzelnen Karte passt. Hier sind NVLink, NVSwitch und die richtige Servertopologie besonders wichtig.

Pipeline-Ausführung.
Verschiedene Modellteile werden nacheinander auf verschiedenen GPUs ausgeführt. Das hilft bei großen Modellen, erfordert aber eine sorgfältige Konfiguration. Andernfalls wartet ein Teil der Karten darauf, dass andere ihren Schritt abschließen.

Für Experimente und kleinere Feinabstimmung reicht häufig 1 GPU. Für erste Multi-GPU-Tests und größere Batches kann man 2 GPUs verwenden. Für ein Team, das regelmäßig Modelle feinabstimmt, werden 4 GPUs oft zum praktischen Minimum. 8 GPUs werden dort benötigt, wo es konstante schwere Experimente, große Datensätze und eine klare Methodik zur Lastverteilung gibt.

Karten wie die NVIDIA A100 80GB werden oft als universelle Option für Inferenz, Feinabstimmung und Aufgaben betrachtet, bei denen HBM-Speicher wichtig ist. Für schwerere Trainingsszenarien und LLM-Inferenz lohnt sich der Blick auf H100/H200. In den offiziellen Spezifikationen der NVIDIA H100 werden SXM- und PCIe-Varianten, MIG-Unterstützung und NVLink genannt. Deshalb sollte man bei der Auswahl nicht nur auf den GPU-Namen achten, sondern auch auf den konkreten Formfaktor.

Rendering

Rendering skaliert anders als LLMs. Wenn ein Projekt in unabhängige Frames oder Szenen aufgeteilt werden kann, können mehrere einzelne GPUs oder Server wirtschaftlicher sein als ein dichter 8-GPU-Node.

1 GPU eignet sich für einen einzelnen Spezialisten, ein kleines Studio oder einen Server, bei dem die Szenen in den Kartenspeicher passen. 2 GPUs können das Rendering beschleunigen, wenn die Engine mehrere Karten effizient nutzt. 4 GPUs sind eine gute Option für eine kleine Farm, in der Aufgaben verteilt werden können. 8 GPUs sind bei dauerhafter Auslastung gerechtfertigt, erfordern aber besondere Aufmerksamkeit für Stromversorgung, Kühlung und Lizenzen der Render-Engine.

Rendering hat eine wichtige Einschränkung: Wenn eine Szene nicht in den Speicher einer einzelnen GPU passt, löst eine zweite Karte das Problem nicht immer. In manchen Engines muss jede GPU den vollständigen Datensatz der Szene im eigenen Speicher halten. Deshalb sollte man vor dem Kauf prüfen, wie genau die gewählte Software mit mehreren GPUs arbeitet.

Für gemischte Aufgaben — Rendering, Visualisierung, Inferenz, Grafik und Engineering-Anwendungen — können Karten wie NVIDIA L40S 48GB oder NVIDIA RTX PRO 6000 Blackwell Server Edition geeignet sein. Solche GPUs sind oft nicht nur für neuronale Netze, sondern auch für grafische Workloads interessant.

VDI und Mehrbenutzerlasten

VDI bezeichnet virtuelle Arbeitsplätze, bei denen Benutzer sich mit Remote-Desktops oder virtuellen Workstations verbinden. In solchen Projekten ist nicht nur GPU-Leistung wichtig, sondern auch Vorhersagbarkeit: Ein Benutzer darf nicht alle Ressourcen der anderen belegen.

Für VDI muss man berücksichtigen:

  • Benutzerprofile;
  • Anwendungstypen: Office, CAD, 3D, Engineering, Visualisierung;
  • die Möglichkeit, GPUs zwischen Benutzern aufzuteilen;
  • vGPU-Unterstützung;
  • Lizenzen;
  • Kompatibilität mit dem Hypervisor;
  • Monitoring der Auslastung pro Benutzer.

1 GPU eignet sich für einen Pilotbetrieb oder eine kleine Gruppe. 2 GPUs erlauben die Trennung verschiedener Benutzerprofile. 4 GPUs ergeben bereits einen dichteren VDI-Server. 8 GPUs sind für eine größere Plattform sinnvoll, aber nur, wenn Lizenzen, Profile und reale Auslastung vorab berechnet wurden. In der NVIDIA-Dokumentation werden lizenzierte Produkte und die Lizenzierung für vGPU-Szenarien beschrieben.

Was einen Multi-GPU-Server begrenzt

Begrenzung Warum das wichtig ist Was vor dem Kauf zu prüfen ist
Videospeicher Modell, Szene oder Benutzerprofil passt möglicherweise nicht in eine GPU Speichervolumen, Speichertyp, Möglichkeiten zur Modelloptimierung
NVLink/NVSwitch Sie werden für schnellen Austausch zwischen GPUs benötigt Welche GPUs direkt verbunden sind, ob NVSwitch vorhanden ist
PCIe-Topologie Nicht alle Slots sind bei Geschwindigkeit und Latenz gleich Slot-Schema, Root Complex, NUMA, PCIe-Switch
CPU-Lanes GPUs benötigen genügend PCIe-Lanes Prozessor, Chipsatz, Verteilung der Lanes auf Slots
RAM CPU-Speicher wird für Daten, Cache und Aufgabenaufbereitung benötigt RAM-Volumen, Frequenz, NUMA-Platzierung
Storage GPUs laufen leer, wenn Daten zu langsam geliefert werden NVMe, RAID, Geschwindigkeit des Datensatzes, Storage-Netzwerk
Stromversorgung 4–8 GPUs erhöhen die Anforderungen an Netzteile stark Gesamte TDP, Leistungsreserve, Redundanz
Kühlung Bei Überhitzung senken GPUs ihre Taktraten Server-Formfaktor, Luftstrom, passive oder aktive Karten
Netzwerk Für mehrere Server ist der Austausch zwischen Nodes wichtig 25/100/200/400 GbE, InfiniBand, Latenz
Lizenzen VDI und professionelle Software können separat lizenziert werden vGPU, Render-Engines, Hypervisor, Aufgabenplaner

Ein Multi-GPU-Server ist nicht einfach ein Gehäuse mit mehreren Grafikkarten. Es ist ein zusammenhängendes System, in dem GPU, CPU, Speicher, Laufwerke, Netzwerk, Stromversorgung, Kühlung und Software zueinander passen müssen. Wenn eine Komponente deutlich schwächer ist als die anderen, warten teure GPUs auf Daten, überhitzen, bleiben im Leerlauf oder arbeiten unterhalb der erwarteten Leistung.

1 GPU: wann eine Grafikkarte ausreicht

Ein Server mit 1 GPU ist nicht automatisch eine schwache Option. Für viele Aufgaben ist er der rationalste Einstieg, besonders wenn das Projekt noch keine stabile Last erreicht hat.

1 GPU eignet sich für:

  • LLM-Prototyping;
  • Test-Inferenz;
  • einen internen Chatbot;
  • Feinabstimmung kleiner Modelle;
  • einen einzelnen 3D-Spezialisten;
  • einen VDI-Piloten;
  • Aufgaben, bei denen Einfachheit und Preis wichtig sind.

Vorteile dieser Konfiguration:

  • Treiber und Umgebung lassen sich einfacher konfigurieren;
  • geringere Anforderungen an den Server;
  • niedrigerer Stromverbrauch;
  • einfachere Kühlung;
  • weniger Kompatibilitätsrisiken;
  • das reale Lastprofil lässt sich leichter verstehen.

Die Einschränkungen sind ebenfalls klar:

  • eine GPU kann schnell an den Videospeicher stoßen;
  • ein einzelner Service kann die ganze Karte belegen;
  • es gibt keine Reserve bei wachsender Last;
  • mehrere Teams oder Projekte sind schwieriger zu bedienen.

Wenn ein Projekt gerade startet, bietet 1 GPU häufig das beste Verhältnis aus Preis und Verwaltbarkeit. Wichtig ist jedoch, nicht „irgendeine Karte“ zu nehmen, sondern eine, die zu Speicherbedarf, Kühlung, Formfaktor und Unterstützung der benötigten Software passt.

2 GPUs: der erste Schritt zur Skalierung

2 GPUs sind ein guter Zwischenweg zwischen einem einfachen Server und einem vollwertigen Multi-GPU-System. Diese Option passt, wenn eine Karte bereits zu wenig ist, der Wechsel zu 4 oder 8 GPUs aber noch nicht gerechtfertigt ist.

2 GPUs sind nützlich, wenn man:

  • zwei unabhängige Modelle starten muss;
  • die Anzahl gleichzeitiger Anfragen erhöhen will;
  • ein großes Modell auf zwei Karten verteilen muss;
  • Rendering beschleunigen möchte;
  • Multi-GPU-Training testen will;
  • Produktions- und Experimentallast trennen möchte.

Vor dem Kauf sollte man prüfen:

  • ob identische GPUs verwendet werden;
  • ob NVLink für genau dieses Kartenpaar verfügbar ist;
  • ob genügend PCIe-Lanes vorhanden sind;
  • ob GPUs nicht ohne Berücksichtigung von NUMA hinter verschiedenen CPUs liegen;
  • ob die Software mit zwei GPUs arbeiten kann;
  • ob eine einzelne Karte mit mehr Videospeicher nicht wirtschaftlicher wäre.

2 GPUs können einen spürbaren Zuwachs bringen, wenn Aufgaben unabhängig sind oder die Software die Last gut parallelisiert. Wenn sich das Modell jedoch schlecht aufteilen lässt, löst die zweite Karte das Problem möglicherweise nicht. Zudem kann der Austausch zwischen GPUs zusätzliche Latenz erzeugen, sodass die fertige Konfiguration nicht so schnell arbeitet wie erwartet.

4 GPUs: eine ausgewogene Option für viele Aufgaben

4 GPUs werden häufig zur praktischsten Konfiguration für Unternehmen, die bereits ernsthafte Leistung benötigen, aber noch nicht die Komplexität einer 8-GPU-Plattform brauchen.

Ein solcher Server eignet sich für:

  • Batch-Inferenz;
  • mehrere LLM-Services;
  • Feinabstimmung mittlerer und großer Modelle;
  • ein Team von ML-Entwicklern;
  • eine kleine Render-Farm;
  • VDI mit mehreren Benutzerprofilen;
  • gemischte Lasten, bei denen ein Teil der GPUs Inferenz übernimmt und ein anderer Teil für Experimente genutzt wird.

Vorteile von 4 GPUs:

  • Ressourcen lassen sich leichter auf Aufgaben verteilen;
  • das Risiko einer überdimensionierten Anschaffung ist geringer;
  • alle Karten lassen sich leichter mit sinnvoller Arbeit auslasten;
  • die Anforderungen an Stromversorgung und Kühlung sind niedriger als bei 8 GPUs;
  • GPUs können als gemeinsamer Pool oder als unabhängige Geräte genutzt werden.

Nachteile:

  • die PCIe-Topologie wird bereits wichtig;
  • Auslastungsmonitoring ist nötig;
  • Aufgabenwarteschlangen müssen geplant werden;
  • Fehler in der Lastverteilung führen zu GPU-Leerlauf;
  • ohne Betriebsdisziplin wird der Server schnell zur „gemeinsamen Box“, bei der unklar ist, wer was nutzt.

Wenn ein Unternehmen mehrere Modelle für Inferenz, periodische Feinabstimmung und separate Grafikaufgaben hat, sind 4 GPUs oft nützlicher als 8 GPUs. Sie lassen sich gleichmäßiger auslasten, einfacher warten und später einfacher skalieren.

8 GPUs: wann das wirklich gerechtfertigt ist

8 GPUs sind nicht die universell „beste“ Option, sondern eine spezialisierte Konfiguration für Aufgaben, die eine dichte Multi-GPU-Plattform wirklich nutzen können.

8 GPUs werden benötigt, wenn es gibt:

  • Training großer Modelle;
  • schwere Feinabstimmung;
  • große LLMs, die auf mehrere GPUs verteilt werden müssen;
  • einen konstanten Strom von Inferenzanfragen;
  • HPC-Aufgaben;
  • HGX-Systeme mit NVSwitch;
  • ein Team, das solche Server administrieren kann.

Vor der Wahl von 8 GPUs sollte man prüfen:

  • den Kartenformfaktor: PCIe oder SXM;
  • ob NVLink oder NVSwitch vorhanden ist;
  • welche GPUs direkt miteinander verbunden sind;
  • Anforderungen an Rack und Stromversorgung;
  • Wärmeabgabe;
  • Kompatibilität des Servers mit konkreten GPUs;
  • Netzwerkanforderungen, falls der Server Teil eines Clusters wird;
  • Softwarelizenzen;
  • Monitoring von Temperatur, Speicher, Auslastung und Fehlern.

Ein 8-GPU-Server ist sinnvoll, wenn entweder eine große Aufgabe gut parallelisiert wird oder eine konstante Warteschlange unabhängiger Aufgaben vorhanden ist. Wenn die Last unregelmäßig ist, bleibt ein Teil der Karten im Leerlauf, während die Betriebskosten hoch bleiben.

Für dichte AI-Lasten wie Training und große Inferenz wird häufig die NVIDIA H100 80GB betrachtet. Bei der Auswahl sollte man jedoch nicht nur die GPU vergleichen, sondern die gesamte Plattform: Interconnect, Stromversorgung, Kühlung, Treiberunterstützung und geplanten Betriebsmodus.

Warum 8 GPUs nicht immer schneller und wirtschaftlicher sind als 4 GPUs

Vergleich von 4 und 8 GPUs im Server

Beschleunigung wächst nicht linear

Wenn die GPU-Anzahl verdoppelt wird, muss die Aufgabe nicht doppelt so schnell laufen. In der Praxis geht ein Teil der Zeit verloren für:

  • Synchronisierung;
  • Datenübertragung zwischen GPUs;
  • Warten auf die CPU;
  • Datenvorbereitung;
  • Speicherarbeit;
  • interne Einschränkungen des Frameworks.

Je mehr GPUs an einer Aufgabe beteiligt sind, desto wichtiger wird der Austausch zwischen ihnen. Wenn die Verbindung langsam ist, geht ein Teil der Beschleunigung verloren.

Das Modell nutzt möglicherweise nicht alle Karten

Ein kleines Modell wird nicht besser, nur weil es auf 8 GPUs gestartet wird. Wenn es in eine Karte passt und keinen sehr hohen Anfragestrom benötigt, bleiben die übrigen GPUs im Leerlauf oder erledigen zu kleine Teilaufgaben.

Für Inferenz ist es oft sinnvoller, mehrere Modellkopien auf einzelnen GPUs zu starten, statt ein Modell auf alle Karten zu strecken. Das funktioniert aber nur bei ausreichend vielen Anfragen.

Videospeicher addiert sich nicht automatisch

Man kann nicht einfach 8 GPUs mit je 80 GB multiplizieren und annehmen, dass eine einzelne Grafikkarte mit 640 GB entstanden ist. Jede GPU hat ihren eigenen Speicher. Um mehrere Karten als eine gemeinsame Ressource zu nutzen, braucht man spezielle Ansätze zur Modellaufteilung, Unterstützung durch das Framework und die richtige Topologie.

Wenn die Aufgabe nicht mit verteiltem Speicher arbeiten kann, löst das Hinzufügen von GPUs das Speicherproblem nicht.

Der Server wird im Betrieb teurer

Bei einem 8-GPU-Server ist nicht nur der Kaufpreis höher. Auch laufende Kosten steigen:

  • Strom;
  • Kühlung;
  • Anforderungen an das Rack;
  • Kosten von Ausfallzeiten;
  • Komplexität der Diagnose;
  • Preis eines Konfigurationsfehlers;
  • Anforderungen an die Qualifikation der Administratoren.

Wenn ein 8-GPU-System im Leerlauf bleibt oder nur mit 30–40 % Auslastung arbeitet, kann es wirtschaftlich schlechter sein als mehrere kleinere Server.

Mehrere Server sind manchmal zuverlässiger

Für unabhängige Aufgaben können mehrere Server mit je 2–4 GPUs bequemer sein als ein großer Node. Wenn ein Server ausfällt, arbeiten die anderen weiter. Hardware kann schrittweise ergänzt werden, Teams lassen sich trennen und Wartung ist einfacher zu planen.

Ein großer Server gewinnt dort, wo eine dichte Verbindung zwischen GPUs nötig ist. Mehrere Server gewinnen dort, wo die Last leicht aufgeteilt werden kann.

Wann mehrere Server besser sind als ein großer

Mehrere Server sollte man in Betracht ziehen, wenn:

  • die Aufgaben unabhängig sind;
  • viele kleine Inferenz-Services vorhanden sind;
  • Rendering nach Frames aufgeteilt wird;
  • VDI-Benutzer auf Pools verteilt werden können;
  • Ausfallsicherheit benötigt wird;
  • Hardware schrittweise angeschafft wird;
  • verschiedene Teams unterschiedliche GPU-Profile verwenden.

Ein großer Server ist besser, wenn:

  • das Modell nicht in eine GPU passt;
  • eine schnelle Verbindung zwischen Karten nötig ist;
  • NVSwitch eingesetzt wird;
  • ein großes Modell als eine Aufgabe trainiert wird;
  • die Latenz zwischen Nodes kritisch ist;
  • ein Team vorhanden ist, das eine solche Plattform warten kann.

Für eine Render-Farm können zum Beispiel vier Server mit je 2 GPUs praktischer sein als ein einzelner Server mit 8 GPUs. Die Aufgaben sind unabhängig, der Ausfall eines Nodes stoppt nicht die ganze Farm und die Skalierung kann schrittweise erfolgen. Für das Training eines großen LLM kann ein einzelner 8-GPU-Server mit richtiger Topologie besser sein, weil ständig Daten zwischen GPUs übertragen werden.

Beispiele für Konfigurationen nach realen Aufgaben

Beispiele für GPU-Server-Konfigurationen

Interner LLM-Assistent

Für einen internen Unternehmensassistenten muss man in der Regel nicht sofort 8 GPUs kaufen. Am Anfang reicht es, das Modell, die Benutzerzahl und die Latenzanforderungen zu verstehen.

Ansatz:

  • 1 GPU — wenn das Modell kompakt ist und es wenige Benutzer gibt;
  • 2 GPUs — wenn Speicherreserve oder mehr parallele Anfragen nötig sind;
  • 4 GPUs — wenn es mehrere Modelle, stabile Last und verschiedene Assistenten für unterschiedliche Abteilungen gibt;
  • mehrere Server — wenn Services unabhängig sind und Ausfallsicherheit benötigt wird.

Was zu prüfen ist:

  • Kontextlänge;
  • Spitzenzahl der Anfragen;
  • Latenzanforderungen;
  • Möglichkeiten zur Modelloptimierung;
  • Lastwachstum in 6–12 Monaten.

Inferenz mehrerer Modelle in einem Produkt

Wenn ein Produkt mehrere Modelle nutzt, ist eine große GPU nicht immer bequemer. Oft ist es besser, Modelle auf verschiedene Karten zu verteilen und Warteschlangen zu verwalten.

Ansatz:

  • 2 GPUs — für zwei unabhängige Modelle oder Trennung von Produktion und Test;
  • 4 GPUs — als Basisvariante für mehrere Services;
  • 8 GPUs — nur bei hoher und dauerhafter Auslastung;
  • mehrere Server — wenn Modelle unabhängig sind und horizontale Skalierung nötig ist.

Was zu prüfen ist:

  • ob mehrere Modellkopien gestartet werden können;
  • ob Kundentrennung benötigt wird;
  • wie Anfragen verteilt werden;
  • ob ein Aufgabenplaner vorhanden ist;
  • wie die Kosten einer Anfrage berechnet werden.

LLM-Feinabstimmung

Feinabstimmung kann leicht oder sehr schwer sein — alles hängt von Modellgröße, Daten und Anpassungsmethode ab.

Ansatz:

  • 1 GPU — Experimente und kleine Modelle;
  • 2 GPUs — erste Multi-GPU-Tests;
  • 4 GPUs — Arbeitskonfiguration für ein Team;
  • 8 GPUs — dauerhafte schwere Experimente und große Modelle.

Was zu prüfen ist:

  • Datenvolumen;
  • Batch-Größe;
  • Anforderungen an die Rechengenauigkeit;
  • Austauschgeschwindigkeit zwischen GPUs;
  • RAM-Volumen;
  • NVMe-Geschwindigkeit;
  • Reife der Datenpipeline.

Rendering und 3D-Grafik

Beim Rendering ist wichtig, wie die konkrete Engine mehrere GPUs nutzt. Manche Aufgaben lassen sich gut nach Frames aufteilen, andere stoßen an den Speicher einer einzelnen Karte.

Ansatz:

  • 1 GPU — Workstation oder kleiner Server;
  • 2 GPUs — Rendering-Beschleunigung bei Engine-Unterstützung;
  • 4 GPUs — kleine Farm;
  • mehrere Server — wenn Aufgaben unabhängig sind;
  • 8 GPUs — nur bei dauerhafter Last und vorbereiteter Infrastruktur.

Was zu prüfen ist:

  • ob die Engine mehrere GPUs unterstützt;
  • ob die Szene in den Speicher einer Karte passt;
  • ob Lizenzbeschränkungen existieren;
  • wie Frames verteilt werden;
  • ob ein interaktiver Modus nötig ist oder nur finales Rendering.

VDI und virtuelle Workstations

Bei VDI zählen nicht Spitzenbenchmarks, sondern Stabilität pro Benutzer. Der Server muss einen Arbeitstag, verschiedene Anwendungen und ungleichmäßige Last aushalten.

Ansatz:

  • 1 GPU — Pilotbetrieb;
  • 2 GPUs — Trennung von Benutzerprofilen;
  • 4 GPUs — produktiver VDI-Server;
  • 8 GPUs — großer Benutzerpool mit vorab berechneten Profilen.

Was zu prüfen ist:

  • Benutzertypen;
  • Anforderungen von CAD-, 3D- und Engineering-Anwendungen;
  • vGPU-Lizenzen;
  • Hypervisor-Kompatibilität;
  • Monitoring der Auslastung pro Benutzer;
  • Regeln zur Ressourcenbegrenzung.

Checkliste vor dem Kauf eines GPU-Servers

Zur Aufgabe

  • Was ist die Hauptlast: Inferenz, Training, Rendering, VDI oder ein gemischtes Szenario?
  • Passt das Modell oder die Szene in den Speicher einer GPU?
  • Ist Latenz oder Gesamtdurchsatz wichtiger?
  • Ist die Last dauerhaft oder unregelmäßig?
  • Lässt sich die Aufgabe ohne großen Effizienzverlust zwischen GPUs aufteilen?
  • Wird Isolation für Teams, Kunden oder Benutzer benötigt?

Zum Server

  • Wie viele PCIe-Lanes sind verfügbar?
  • Welche GPU-Topologie liegt vor?
  • Gibt es NVLink oder NVSwitch?
  • Ist genügend RAM vorhanden?
  • Reichen NVMe und Storage-Geschwindigkeit aus?
  • Sind die Netzteile ausreichend dimensioniert?
  • Unterstützt das Gehäuse die nötige Kühlung?
  • Gibt es Reserve bei Rack, Stromversorgung und Geräuschentwicklung?

Zur Software

  • Unterstützt das Framework Multi-GPU?
  • Werden vGPU-Lizenzen benötigt?
  • Gibt es Einschränkungen der Render-Engine?
  • Ist ein Aufgabenplaner vorhanden?
  • Wie wird die GPU-Auslastung gemessen?
  • Wie werden Kosten pro GPU-Stunde oder pro Anfrage berechnet?

Zum Betrieb

  • Wer überwacht die GPUs und wie?
  • Wie werden Treiber aktualisiert?
  • Was passiert bei Ausfall einer Karte?
  • Wie soll in einem Jahr skaliert werden?
  • Was ist günstiger: GPUs in einem Server ergänzen oder einen zweiten Node kaufen?
  • Gibt es Reserve bei Stromversorgung und Kühlung?

FAQ

Fragen zur Auswahl eines GPU-Servers

Muss man für LLMs 8 GPUs nehmen?

Nicht immer. Wenn das Modell in eine GPU passt und es wenige Anfragen gibt, bleiben 8 GPUs im Leerlauf. 8 GPUs werden für große Modelle, dichte Inferenz oder Training benötigt, wo echtes Multi-GPU-Scaling vorhanden ist.

Addiert sich der Videospeicher mehrerer GPUs?

Nicht automatisch. Jede GPU hat ihren eigenen Speicher. Mehrere Karten können nur mit korrekter Modellaufteilung und Framework-Unterstützung als eine gemeinsame Ressource genutzt werden.

Was ist besser: 4 GPUs in einem Server oder 4 Server mit je 1 GPU?

Für unabhängige Aufgaben sind mehrere Server oft bequemer. Für ein großes Modell oder Training ist ein Server mit schneller Verbindung zwischen GPUs besser.

Wann braucht man NVLink oder NVSwitch?

Wenn GPUs häufig Daten austauschen müssen: Training, Modellaufteilung, schwere LLM-Inferenz. Für unabhängige Aufgaben, etwa Rendering einzelner Frames, kann NVLink weniger kritisch sein.

Eignet sich 1 GPU für Rendering?

Ja, wenn Szenen in den GPU-Speicher passen und keine konstante Aufgabenwarteschlange vorhanden ist. Für eine Farm sollte man 2–4 GPUs oder mehrere separate Server betrachten.

Was ist für LLMs wichtiger: GPU-Anzahl oder Videospeicher?

Zuerst der Videospeicher. Wenn das Modell nicht passt, hilft die Anzahl der GPUs nur bei korrekter Modellaufteilung. Wenn das Modell passt, wird die GPU-Anzahl wichtiger für Durchsatz und parallele Verarbeitung von Anfragen.

Kann man unterschiedliche GPUs in einem Server mischen?

Technisch ist das manchmal möglich, aber für Training, Inferenz und Rendering erzeugt es häufig Probleme: unterschiedliche Speichervolumina, unterschiedliche Geschwindigkeit, Treiberbesonderheiten und ungleichmäßige Auslastung. Für Produktionslasten ist es meist sicherer, identische GPUs zu verwenden oder unterschiedliche Karten vorab unterschiedlichen Aufgaben zuzuweisen.

Wie man die GPU-Anzahl auswählt

1 GPU sollte man wählen, wenn die Aufgabe in den Speicher einer Karte passt, die Last moderat ist und Einfachheit wichtiger ist als maximale Skalierbarkeit.

2 GPUs passen, wenn der erste Schritt zur Skalierung nötig ist: mehr gleichzeitige Anfragen, zwei unabhängige Modelle, Rendering-Beschleunigung oder Tests eines Multi-GPU-Ansatzes.

4 GPUs sind für viele Unternehmen die universellste Variante. Diese Konfiguration eignet sich für Inferenz, Feinabstimmung, Rendering, VDI und gemischte Aufgaben, wenn ein Scheduler und eine klare Lastverteilung vorhanden sind.

8 GPUs werden für Aufgaben benötigt, die eine dichte Multi-GPU-Plattform wirklich nutzen: großes Training, große LLMs, konstante Batch-Inferenz, HGX-Plattformen mit richtiger Topologie und vorbereiteter Infrastruktur.

Mehrere Server sind besser, wenn die Last unabhängig ist, Ausfallsicherheit benötigt wird und das Unternehmen schrittweise skalieren möchte.

Der beste GPU-Server ist nicht der mit den meisten Grafikkarten, sondern der, in dem jede GPU stabil mit nützlicher Arbeit ausgelastet ist und nicht an Speicher, Netzwerk, Stromversorgung, Kühlung oder Softwaregrenzen stößt.


Kommentare
(0)
Keine Kommentare
Kommentar schreiben
Ich stimme der Verarbeitung meiner personenbezogenen Daten zu

NÄCHSTER ARTIKEL

Erfahren Sie als Erster von neuen Beiträgen und verdienen Sie 50 €.