Ein fertiger GPU-Server ist die bessere Wahl, wenn die Aufgabe klar ist, der Start schnell erfolgen muss und die Anforderungen in ein typisches Szenario passen: Inferenz, Rendering, VDI, ein Pilotprojekt oder die Arbeit eines einzelnen Teams. Eine individuelle Konfiguration lohnt sich, wenn der Server eine nicht standardmäßige Last abdecken soll: 4–8 GPUs, viel Videospeicher, schnelle NVMe-Laufwerke, 100/200/400G-Netzwerk, besondere Anforderungen an Kühlung, Stromversorgung, Redundanz oder zukünftige Upgrades.
Die Wahl zwischen einem fertigen Modell und einer individuellen Zusammenstellung hängt selten nur vom Preis ab. Bei GPU-Servern zählt die gesamte Architektur: Grafikkarten, Prozessoren, Arbeitsspeicher, Laufwerke, Netzwerk, Gehäuse, Rack, Kühlung, Treiber, Software und der Zeitraum, in dem der Server in Betrieb genommen werden muss.
Eine Standardkonfiguration kann die beste Lösung sein, wenn das Unternehmen ein Projekt schneller starten und das Risiko inkompatibler Komponenten senken möchte. Eine individuelle Zusammenstellung ist sinnvoll, wenn es darum geht, durch eigene Montage mit den nötigen Kompetenzen Kosten zu sparen, wenn die Anforderungen nicht standardmäßig sind und vor allem, wenn ein Konfigurationsfehler in sechs Monaten nicht zu einer erneuten Beschaffung, Stillstand im Team oder fehlender Skalierbarkeit des Services führen darf.
Was als fertiger GPU-Server gilt
Ein fertiger GPU-Server ist nicht unbedingt ein vollständig unveränderliches System „von der Stange“. Häufiger geht es um eine geprüfte Plattform, bei der die wichtigsten Parameter bereits klar sind:
- wie viele GPUs das Gehäuse unterstützt;
- welche Netzteile erforderlich sind;
- wie der Luftstrom organisiert ist;
- welche Prozessoren und RAM-Kapazitäten verfügbar sind;
- welche Laufwerke installiert werden können;
- welche Netzwerkkarten unterstützt werden;
- welche Varianten bereits vom Lieferanten oder Hersteller geprüft wurden.
Ein solcher Server lässt sich einfacher auswählen, freigeben, liefern und warten. Für viele Aufgaben reicht das aus.
Ein fertiges Modell eignet sich gut für Szenarien, in denen die Last bereits verstanden ist:
- Inferenz für ein oder mehrere Modelle;
- Rendering;
- Videoschnitt und Medienverarbeitung;
- VDI und grafische Arbeitsplätze;
- ein Teststand für ein Team;
- ein KI-Pilotprojekt;
- ein Labor für Schulung und Experimente.
Wenn der Server 1–2 GPUs, eine moderate Menge RAM, standardmäßige NVMe- oder SSD-Speicher und ein normales Netzwerk benötigt, verlängert eine vollständige Individualisierung oft nur die Lieferzeit und erschwert den Support.
Was eine individuelle GPU-Server-Konfiguration ist
Eine individuelle Konfiguration ist ein Server, der für ein konkretes technisches Pflichtenheft zusammengestellt wird. Bei einer solchen Konfiguration werden nicht nur die Komponenten im Voraus geplant, sondern auch die Grenzen des späteren Betriebs.
Die Individualisierung kann fast jede Ebene betreffen:
- die Anzahl der GPUs;
- die Menge des Videospeichers;
- den GPU-Formfaktor;
- Prozessoren;
- Arbeitsspeicher;
- NVMe-, SAS- oder SATA-Laufwerke;
- RAID und separate Arrays für Daten;
- Netzwerkkarten;
- Stromversorgungsredundanz;
- Kühlung;
- Remote-Management;
- Kompatibilität mit Treibern und Software;
- Anforderungen an Rack und Rechenzentrum.
Eine individuelle Zusammenstellung ist nicht dafür nötig, einfach „etwas Besseres“ zu bauen. Sie wird meist dann gebraucht, wenn ein Standardmodell nicht die nötige Dichte, Geschwindigkeit, Upgrade-Reserve oder Kompatibilität mit einer konkreten Aufgabe bietet.
Zum Beispiel können ein Server für einfache Inferenz und ein Server für das Training großer Modelle beide GPU-Server heißen, aber im Inneren völlig unterschiedliche Systeme sein. Im ersten Fall ist es wichtiger, schnell eine stabile Konfiguration zu starten. Im zweiten müssen Videospeicher, Austausch zwischen GPUs, Netzwerk, Laufwerke, Stromversorgung und Kühlung im Voraus berechnet werden.
Fertiges Modell und individuelle Zusammenstellung: Vergleich nach wichtigen Kriterien
| Kriterium | Fertiger GPU-Server | Individuelle Konfiguration | Was das in der Praxis bedeutet |
|---|---|---|---|
| Startzeit | Meist schneller | Länger wegen Planung und Prüfung | Wenn das Projekt in den kommenden Wochen starten muss, ist ein Standardmodell oft praktischer |
| Einstiegspreis | Oft niedriger und klarer | Kann höher sein, weil der Lieferant aufgabenspezifische Komponenten auswählt, oder niedriger, wenn das System intern montiert wird | Eine individuelle Lösung sollte nicht nur nach Kaufpreis, sondern auch nach Nutzungsdauer und Support bewertet werden |
| Kompatibilität | Geringere Risiken | Erfordert separate Prüfung | Bei GPU-Servern sind Stromversorgung, Kühlung, Slots, BIOS und Treiber wichtig |
| Garantie und Service | Meist einfacher | Kann von der Zusammensetzung der Konfiguration abhängen | Je komplexer die Konfiguration, desto wichtiger ist eine klare Zuständigkeit |
| Skalierung | Durch die Plattform begrenzt | Kann im Voraus eingeplant werden | Eine individuelle Konfiguration ist sinnvoll, wenn der Server nicht für einen Pilot, sondern für Wachstum gekauft wird |
| Upgrade | Nicht immer möglich | Slots, Stromversorgung und Kühlung können eingeplant werden | Später GPUs hinzuzufügen ist nur möglich, wenn physische und elektrische Reserven vorhanden sind |
| Laufwerke | Standardoptionen | Ein passendes Speicherschema kann für die Daten aufgebaut werden | Für große Datensätze zählen nicht nur Kapazität, sondern auch Lese- und Schreibgeschwindigkeit |
| Netzwerk | Oft 10/25G | 100/200/400G kann eingeplant werden | Für Cluster und externen Speicher wird das Netzwerk schnell zum Engpass |
| Kühlung | Bereits für eine typische Last berechnet | Muss für die konkreten GPUs geprüft werden | Formale Kompatibilität garantiert noch keinen stabilen thermischen Betrieb |
| Risiko der Überzahlung | Man kann zu viel Leistung „auf Vorrat“ kaufen | Man kann das System überdimensionieren | In beiden Varianten muss die reale Last bewertet werden |
| Grenzen nach 6–12 Monaten | Wahrscheinlich, wenn das Projekt wächst | Können im Voraus reduziert werden | Wenn die Last schnell wächst, kann ein Standardmodell nur eine Übergangslösung sein |
Ein fertiger Server gewinnt, wenn Geschwindigkeit, Vorhersagbarkeit und geringes Risiko wichtig sind. Eine individuelle Konfiguration gewinnt, wenn die Aufgabe die Architektur des gesamten Servers beeinflusst und nicht nur die Wahl der Grafikkarte.
Wann ein fertiger GPU-Server die richtige Wahl ist
Dell PowerEdge XE9680.
Bildquelle: DELL
Ein fertiges Modell bedeutet nicht, dass das System schwach oder ein Kompromiss ist. In vielen Fällen ist es die rationalste Option: Es startet schneller, ist einfacher zu warten und erfordert keine lange technische Vorplanung.
Die Last ist im Voraus klar
Ein typischer GPU-Server eignet sich, wenn bekannt ist:
- welche Anwendungen ausgeführt werden;
- wie viele Nutzer mit dem System arbeiten;
- wie viel Videospeicher benötigt wird;
- wie viele Daten lokal gespeichert werden;
- ob eine hohe Netzwerkbandbreite erforderlich ist;
- ob im kommenden Jahr Wachstum geplant ist.
Zum Beispiel reichen für VDI, Rendering, Tests oder Inferenz eines kleineren Modells oft 1–2 GPUs. In solchen Szenarien kann man universelle Server-GPUs wie NVIDIA A10 24GB oder NVIDIA L40S 48GB betrachten, sofern sie zu Videospeicher, Stromverbrauch und Lastprofil passen.
Eine schnelle Inbetriebnahme ist wichtig
Die Startgeschwindigkeit ist manchmal wichtiger als eine perfekte Konfiguration. Das ist besonders sichtbar, wenn:
- das Team bereits arbeitsbereit ist, aber auf die Infrastruktur wartet;
- ein Pilot einem Kunden gezeigt werden muss;
- ein Geschäftsprozess von Fristen abhängt;
- das Projekt noch eine Hypothese prüft;
- der Stillstand von Ingenieuren teurer ist als mögliche Einsparungen bei der Komponentenauswahl.
Ein fertiges Modell lässt sich einfacher durch den Einkauf bringen, vom Lieferanten erhalten und schneller in den Betrieb übergeben. Es gibt weniger Unbekannte: Plattform, Komponenten, Kühlung und verfügbare Serviceoptionen sind klar.
Es gibt keine seltenen Anforderungen an Laufwerke und Netzwerk
Eine Standardkonfiguration eignet sich, wenn Folgendes ausreicht:
- ein Standardnetzwerk mit 10/25G;
- lokale NVMe- oder SSD-Laufwerke;
- ein normales RAID für die Systempartition;
- ein moderates Datenvolumen;
- ein einzelner Server ohne Einbindung in einen Cluster.
Wenn Daten nicht ständig zwischen mehreren Knoten übertragen werden und Modelle sowie Datensätze auf lokale Laufwerke passen, können ein komplexes Netzwerk und ein nicht standardmäßiges Speichersubsystem überflüssig sein.
Das Risiko von Inkompatibilität muss reduziert werden
Einen GPU-Server kann man nicht nach dem Prinzip „Server plus starke Grafikkarte“ auswählen. Man muss prüfen:
- die physischen Abmessungen der Karte;
- den Stromverbrauch;
- Stromanschlüsse;
- verfügbaren Luftstrom;
- BIOS-Unterstützung;
- Slots und Riser;
- Treiberkompatibilität;
- Temperatur im Rack;
- Anforderungen an die Netzteile.
Deshalb sind geprüfte Plattformen und validierte Systeme nicht nur für große Unternehmen wichtig. NVIDIA hebt den Ansatz zertifizierter Systeme gesondert hervor: Server werden für beschleunigte Workloads validiert, darunter Training, Inferenz, Rendering und Unternehmenssoftware. Mehr dazu findet man im Bereich NVIDIA Certified Systems.
Wann man besser nicht ohne individuelle Konfiguration startet
Eine individuelle Konfiguration wird gebraucht, wenn die Anforderungen über „eine oder zwei GPUs einsetzen und die Anwendung starten“ hinausgehen. Je stärker die Last von Videospeicher, Austausch zwischen GPUs, Laufwerksgeschwindigkeit und Netzwerk abhängt, desto höher ist der Preis eines Fehlers.
Es werden 4–8 GPUs benötigt
Offizielles Produkt-Rendering des NVIDIA DGX B200.
Bildquelle: NVIDIA DOCS
Bei 1–2 GPUs lässt sich oft ein fertiges Modell auswählen. Bei 4–8 GPUs wird der Server zu einem eigenen Infrastrukturprojekt.
Geprüft werden muss:
- ob genügend PCIe-Lanes vorhanden sind;
- ob das Gehäuse die thermische Last aushält;
- ob die Netzteile ausreichen;
- wie die GPUs angeordnet werden;
- ob die Karten benachbarte Slots blockieren;
- ob eine schnelle Verbindung zwischen GPUs erforderlich ist;
- ob das Rack in Bezug auf Leistung und Tiefe passt;
- ob Reserven für Netzwerkkarten und Laufwerke vorhanden sind.
Für schweres Training, große Modelle und hohe Rechendichte reicht es nicht mehr, nur auf den Preis der Grafikkarten zu schauen. Zum Beispiel können NVIDIA H100 80GB oder NVIDIA H200 Teil sehr unterschiedlicher Systeme sein: von einem einzelnen leistungsstarken Server bis zu einer Cluster-Infrastruktur mit Hochgeschwindigkeitsnetzwerk und separatem Speicher.
Die Videospeicherkapazität ist kritisch
Videospeicher wird bei KI-Aufgaben häufig zur ersten Grenze. Wenn ein Modell nicht in den GPU-Speicher passt, kann der Server auf dem Papier leistungsstark wirken, in der realen Arbeit aber unpraktisch sein.
Viel VRAM ist wichtig für:
- große Sprachmodelle;
- Modelle mit langem Kontext;
- die Verarbeitung großer Bilder;
- Feinabstimmung;
- den gleichzeitigen Betrieb mehrerer Modelle;
- die Bedienung vieler Nutzer;
- Experimente mit schwereren Modellversionen.
Manchmal ist eine einzelne GPU mit viel Videospeicher nützlicher als mehrere weniger passende Karten. In anderen Fällen ist Parallelität wichtiger, dann werden mehrere GPUs benötigt. Deshalb sollte die Auswahl nicht nur mit der Frage „welche Grafikkarte ist schneller“ beginnen. Zuerst muss klar sein, wie viel Speicher jetzt gebraucht wird und wie viel in einem Jahr nötig sein kann.
Für Aufgaben, bei denen Videospeicher und Modelltraining kritisch sind, ist es sinnvoll, Lösungen wie NVIDIA A100 80GB separat zu betrachten und sie nicht nur nach Leistung, sondern auch nach Kompatibilität mit der Serverplattform zu vergleichen.
Ein besonderes Laufwerksschema ist erforderlich
Laufwerke in einem GPU-Server sind nicht nur für die Speicherung zuständig. Sie beeinflussen die Geschwindigkeit der Datenvorbereitung, das Laden von Datensätzen, temporäre Dateien und die Stabilität der Pipeline.
Eine individuelle Konfiguration wird benötigt, wenn:
- Datensätze Dutzende oder Hunderte Terabyte umfassen;
- Daten häufig gelesen und geschrieben werden;
- ein schneller lokaler Cache erforderlich ist;
- separate Arrays für Betriebssystem, Daten und temporäre Dateien gebraucht werden;
- NVMe-U.2/U.3-Laufwerke erforderlich sind;
- Hot-Swap-Laufwerke wichtig sind;
- Redundanz für die Systempartition nötig ist;
- der Server mit externem Speicher arbeitet.
Ein schwaches Speichersubsystem kann dazu führen, dass GPUs untätig auf Daten warten. Das ist in teuren Konfigurationen besonders unangenehm: Das Geld steckt in Grafikkarten, aber die Leistung wird nicht durch die GPU, sondern durch den Speicher begrenzt.
Der Server wird Teil eines Clusters
Wenn ein Server mit anderen GPU-Knoten oder externem Speicher verbunden wird, wird das Netzwerk Teil der Architektur.
Eine individuelle Konfiguration lohnt sich, wenn benötigt werden:
- 100/200/400G-Netzwerkkarten;
- mehrere Netzwerkports;
- ein separates Speichernetzwerk;
- ein separates Managementnetzwerk;
- schneller Austausch zwischen Knoten;
- Skalierung auf mehrere Server;
- ein einheitlicher Cluster für Training oder Inferenz.
NVIDIA beschreibt KI-Infrastruktur in seinen Enterprise-Referenzarchitekturen nicht als einzelnen Server, sondern als Kombination aus Rechenknoten, Hochgeschwindigkeitsnetzwerk, Speicher, Monitoring und Software-Stack. Dieser Ansatz ist besonders wichtig, wenn ein Projekt von einem einzelnen Server zu einer vollständigen Infrastruktur wächst. Ein Beispiel findet sich in den NVIDIA Enterprise Reference Architectures.
Es gibt Einschränkungen bei Rack, Stromversorgung und Kühlung
Ein GPU-Server kann auf Komponentenebene kompatibel sein, aber nicht zum realen Rechenzentrum passen.
Vor dem Kauf sollte geprüft werden:
- wie viele Kilowatt pro Rack verfügbar sind;
- welche PDUs verwendet werden;
- wie viele Stromleitungen zugewiesen werden können;
- welche Racktiefe vorhanden ist;
- ob das Rack das Gewicht des Servers trägt;
- welcher Luftstrom erforderlich ist;
- welche Temperatur im Kaltgang herrscht;
- ob Kühlungsreserve vorhanden ist;
- ob Flüssigkeitskühlung erlaubt ist;
- welcher Geräuschpegel akzeptabel ist, wenn der Server nicht im Rechenzentrum steht.
Hochdichte GPU-Systeme zeigen, wie eng Rechenleistung, Netzwerk, Stromversorgung und Kühlung miteinander verbunden sind. In der Referenzarchitektur NVIDIA DGX SuperPOD mit DGX B200 werden diese Parameter als eine gemeinsame Infrastruktur betrachtet und nicht als Sammlung einzelner Komponenten.
Es gibt das Ziel, Geld zu sparen
Eine individuelle Zusammenstellung kann sogar günstiger sein als ein „fertiger“ Server, wenn man Folgendes auswählt:
- günstigere Komponenten, zum Beispiel OEM statt herstellerspezifischer Lösungen;
- Komponenten aus dem Sekundärmarkt;
- ältere Komponenten statt Cutting-Edge-Hardware.
Gleichzeitig erfordert eine solche Zusammenstellung Fachwissen, und eine Garantie kann fraglich sein. Bei begrenztem Budget und für Pilotprojekte kann diese Option jedoch gerechtfertigt sein.
Wo bei der Auswahl eines GPU-Servers die häufigsten Fehler passieren
Fehler bei der Auswahl eines GPU-Servers wirken in der Beschaffungsphase selten dramatisch. Meist zeigen sie sich später: Der Server funktioniert, ist aber nicht so schnell wie erwartet, skaliert nicht, überhitzt, unterstützt neue GPUs nicht oder erfordert eine Überarbeitung der Infrastruktur.
Nur der Preis der Grafikkarten wird gezählt
Die Projektkosten umfassen nicht nur GPUs. Zum realen Budget gehören:
- die Serverplattform;
- Grafikkarten;
- Prozessoren;
- Arbeitsspeicher;
- Laufwerke;
- Netzwerkkarten;
- Kabel;
- Netzteile;
- Rack und Stromversorgung;
- Kühlung;
- Inbetriebnahme;
- Lizenzen und Support;
- Arbeitszeit der Ingenieure;
- mögliche Ausfallzeiten.
Ein günstiger Server kann teuer werden, wenn er in sechs Monaten umgebaut oder ersetzt werden muss. Umgekehrt kann eine individuelle Zusammenstellung gerechtfertigt sein, wenn sie Wachstum für 2–3 Jahre abdeckt und nach den ersten erfolgreichen Tests keine erneute Beschaffung erfordert.
Es wird „das Maximum“ ohne Lastprofil gekauft
Reserve ist nur dann nützlich, wenn klar ist, wofür sie vorgesehen ist. Ohne Lastprofil kann man für etwas bezahlen, das keinen Leistungszuwachs bringt.
Häufige Beispiele:
- es wurden mehr GPUs gekauft, aber der Videospeicher jeder Karte wurde zum Engpass;
- teure Prozessoren wurden gewählt, obwohl die Aufgabe fast vollständig GPU-abhängig ist;
- schnelle Laufwerke wurden installiert, aber die Daten kommen über ein langsames Netzwerk;
- viel RAM wurde eingeplant, aber das Modell ist durch VRAM begrenzt;
- der Server wurde ohne Leistungsreserve gekauft, und ein Upgrade wurde unmöglich.
Vor dem Kauf sollte bestimmt werden, was die Aufgabe tatsächlich begrenzt: Videospeicher, Anzahl der GPUs, Prozessor, RAM, Laufwerke, Netzwerk oder Kühlung.
Wachstum in 6–12 Monaten wird nicht berücksichtigt
Ein Standardmodell kann ideal für einen Pilot und schwach für die Produktion sein. Das ist kein Fehler, wenn der Server genau für einen Pilot gekauft wird. Der Fehler liegt darin, anzunehmen, dass eine Pilotkonfiguration automatisch zu einem wachsenden Service passt.
Grenzen treten auf, wenn:
- die Zahl der Nutzer steigt;
- mehrere Modelle gleichzeitig ausgeführt werden müssen;
- das Modell größer wird;
- mehr lokaler Speicher erforderlich ist;
- eine weitere GPU benötigt wird;
- die Slots bereits belegt sind;
- die unterstützte GPU oder eine andere Komponente nicht mehr beschaffbar ist;
- die Netzteile nicht für ein Upgrade ausgelegt wurden;
- das Rack den höheren Stromverbrauch nicht verkraftet;
- GPU-Virtualisierung erforderlich wird;
- der Server in einen Cluster aufgenommen werden muss.
Wenn der Server heute für Tests benötigt wird und in sechs Monaten ein kommerzieller Service geplant ist, sollte zumindest eine Grundreserve sofort eingeplant werden: Gehäuse, Stromversorgung, Slots, RAM, Laufwerke und Netzwerk.
Softwarekompatibilität wird nicht geprüft
Ein GPU-Server muss nicht nur zur Hardware passen. Auch der Software-Stack sollte im Voraus geprüft werden:
- Betriebssystem;
- Treiber;
- CUDA;
- Container;
- Hypervisor;
- Kubernetes;
- GPU-Virtualisierung;
- Bibliotheken für maschinelles Lernen;
- Monitoring;
- Backup;
- Remote-Management.
Besonders sorgfältig sollte man vorgehen, wenn der Server für ein bereits bestehendes Produkt gekauft wird. In diesem Fall darf Hardware nicht getrennt von der Anwendung ausgewählt werden: Es muss geprüft werden, welche Treiber- und Bibliotheksversionen unterstützt werden, wie die Anwendung GPUs nutzt und ob Anforderungen an konkrete Grafikkartenmodelle bestehen.
Was in ein Pflichtenheft für einen individuellen GPU-Server gehört
Wenn eine individuelle Konfiguration gewählt wurde, sollte man nicht mit der Komponentenliste beginnen, sondern mit der Aufgabe. Je genauer die Last beschrieben ist, desto geringer ist das Risiko, ein teures, aber unausgewogenes System zu bauen.
| Block im Pflichtenheft | Was anzugeben ist | Warum das wichtig ist | Beispielformulierung |
|---|---|---|---|
| Aufgabe | Inferenz, Training, Feinabstimmung, Rendering, VDI, Berechnungen | Unterschiedliche Aufgaben belasten GPU, CPU, RAM, Laufwerke und Netzwerk unterschiedlich | Inferenz eines Modells für einen internen Service, bis zu 30 Nutzer zum Start |
| Modelle und Software | Modelle, Frameworks, Betriebssystem, Container, Treiber | Die Hardware muss zum realen Software-Stack passen | Ubuntu, Docker, PyTorch, mehrere Modelle, Reserve für Updates |
| Videospeicher | Minimale und gewünschte VRAM-Kapazität | Große Modelle sind oft gerade durch Videospeicher begrenzt | Mindestens 48 GB pro GPU, vorzugsweise 80 GB für Wachstum |
| Anzahl der GPUs | 1, 2, 4 oder 8 GPUs, zukünftiges Wachstum | Davon hängen Gehäuse, Stromversorgung, Kühlung und Netzwerk ab | 2 GPUs zum Start, Möglichkeit zum Wechsel auf 4 GPUs |
| CPU | Anzahl der Prozessoren, Kerne, Frequenz | Die CPU darf Datenvorbereitung und Anfragen nicht ausbremsen | Prozessor mit Reserve für Vorverarbeitung und parallele Aufgaben |
| RAM | Aktuelle Kapazität und Erweiterungsmöglichkeiten | RAM wird für Daten, Services, Caches und Virtualisierung benötigt | 512 GB zum Start, Erweiterung auf 1–2 TB |
| Laufwerke | Betriebssystem, Cache, Datensätze, RAID, Hot Swap | Schwache Laufwerke können GPUs ohne Daten lassen | 2 NVMe-Laufwerke für das Betriebssystem im Spiegel, separater NVMe-Pool für Daten |
| Netzwerk | 10/25/100/200/400G, Anzahl der Ports | Für Cluster und externen Speicher ist das Netzwerk kritisch | 2×25G zum Start, 100G-Option für Speicher |
| Redundanz | Netzteile, RAID, Ersatzlaufwerke, Remote-Management | Der Server muss wartbar sein, nicht nur leistungsstark | Redundante Netzteile, Remote-Management, Ersatzlüfter |
| Rack | Höhe, Tiefe, Gewicht, Leistung, Kühlung | Das Rechenzentrum kann die reale Konfiguration begrenzen, besonders bei der Stromversorgung | Maximal 4U, Luftkühlung, Kompatibilität mit dem vorhandenen Rack |
| Budget | Beschaffung, Service, Betriebshorizont | Hilft bei der Wahl zwischen Einstiegspreis und langer Nutzungsdauer | Budget für die erste Phase, Upgrade in 12–18 Monaten |
Ein solches Pflichtenheft hilft dem Lieferanten, nicht einfach einen „leistungsstarken Server“ auszuwählen, sondern ein System für ein reales Szenario zusammenzustellen. Das ist besonders wichtig bei Projekten, bei denen ein GPU-Server für 3–5 Jahre und nicht für ein einzelnes Experiment gekauft wird.
Wann individuelle Konfiguration nicht nötig ist
Individualisierung wirkt attraktiv, weil sie ein Gefühl vollständiger Kontrolle gibt. In vielen Fällen bringt sie aber keinen zusätzlichen Nutzen.
Pilotprojekt
Wenn ein Team nur eine Hypothese prüft, sollte man besser nicht mit der maximalen Konfiguration beginnen. Für einen Pilot reichen oft:
- 1–2 GPUs;
- eine moderate Menge RAM;
- standardmäßige NVMe-Laufwerke;
- ein normales Netzwerk;
- eine klare Garantie;
- die Möglichkeit, den Server später schnell zu ersetzen oder zu erweitern.
Ein Pilot soll schnell eine Antwort geben: Funktioniert die Idee oder nicht? Eine zu komplexe Zusammenstellung kann das Projekt verzögern, bevor erste Ergebnisse entstehen.
Inferenz eines kleinen Modells
Wenn das Modell in den Videospeicher passt, die Last vorhersagbar ist und die Nutzerzahl bekannt ist, ist ein Standardmodell einfacher. In diesem Szenario sind Stabilität, Kühlung, Garantie und klare Inbetriebnahme wichtiger.
Bei der GPU-Auswahl kann man mit der allgemeinen Kategorie NVIDIA-Server-GPUs beginnen und dann von der Aufgabe zu konkreten Karten übergehen: zum Beispiel universellen Modellen für Inferenz, Grafik, VDI oder schwereren Lösungen für Training.
Rendering, VDI und grafische Arbeitsplätze
Bei diesen Aufgaben sind die Anforderungen oft im Voraus klar:
- welche Software genutzt wird;
- wie viele Nutzer arbeiten werden;
- wie viel Videospeicher pro Nutzer benötigt wird;
- ob Virtualisierung erforderlich ist;
- welche Monitore und Auflösungen genutzt werden;
- welches Netzwerk für Remote-Arbeit nötig ist.
Wenn das Lastprofil bekannt ist, kann ein typischer GPU-Server die Aufgabe ohne lange technische Planung abdecken.
Enges Budget
Wenn das Budget begrenzt ist, hilft Individualisierung nicht immer. Manchmal ist es besser, ein ausgewogenes Standardmodell zu nehmen, als eine komplexe Konfiguration mit Komponenten zu bauen, die nicht genutzt werden.
In einer solchen Situation ist es sinnvoller, einen Server mit klarer Reserve zu wählen:
- nicht die maximale Zahl an GPUs, sondern die wirklich benötigte;
- nicht den teuersten Prozessor, sondern einen ausreichenden;
- nicht übermäßig viel RAM, sondern eine erweiterbare Konfiguration;
- keine seltene Netzwerkkarte, sondern ein Netzwerk für die reale Last;
- nicht das größtmögliche Laufwerksarray, sondern ein verständliches Speicherschema.
Wann ein Standardmodell nach 6–12 Monaten zur Einschränkung wird
Ein Standardmodell kann ein guter Startpunkt, aber ein schwaches Fundament für Wachstum sein. Das gilt besonders, wenn ein Server für ein Projekt gekauft wird, das schnell von Tests in den Produktivbetrieb übergeht.
Vorsicht ist angebracht, wenn bereits jetzt solche Anzeichen vorhanden sind:
- das Team plant, mehrere Modelle gleichzeitig auszuführen;
- die Zahl der Nutzer kann sich vervielfachen;
- eine GPU mit größerem Speicher wird benötigt;
- das aktuelle Modell wird durch ein schwereres ersetzt;
- Datensätze wachsen schnell;
- Daten sollen lokal gespeichert werden;
- externer Speicher muss angebunden werden;
- ein 100G-Netzwerk wird erforderlich;
- der Server wird Teil eines Clusters;
- GPU-Virtualisierung ist geplant;
- Anforderungen an Fehlertoleranz werden strenger.
Zum Beispiel kann ein Standardmodell mit 2 GPUs gut für einen internen Prototyp geeignet sein. Wenn es aber in sechs Monaten Dutzende oder Hunderte Nutzer bedienen, mehrere Modelle ausführen und große Datensätze speichern muss, entstehen Grenzen nicht nur bei den GPUs. Es kann an RAM, Laufwerken, Netzwerk, Stromversorgung oder freien Slots fehlen.
In diesem Fall ist es besser, im Voraus eine Plattform zu wählen, die Wachstum zulässt. Selbst wenn zum Start nicht alle Möglichkeiten genutzt werden, muss der Server nach den ersten erfolgreichen Projektphasen nicht vollständig ersetzt werden.
Zwischenlösung: Standardbasis mit gezielter Individualisierung
In der Praxis lautet die Wahl nicht immer „fertiger Server oder vollständig individuelle Zusammenstellung“. Häufig ist eine Zwischenlösung optimal: Eine geprüfte Serverplattform wird als Basis genommen, während einzelne Parameter für die Aufgabe angepasst werden.
Gezielt ändern lassen sich:
- das GPU-Modell;
- die RAM-Kapazität;
- die Anzahl der NVMe-Laufwerke;
- die Netzwerkkarte;
- der RAID-Controller;
- Netzteile;
- das Kühlsystem;
- die Konfiguration des Remote-Managements;
- Reserve für zukünftige Upgrades.
Dieser Ansatz reduziert Risiken. Der Server bleibt auf einer verständlichen Plattform, schränkt das Projekt aber nicht zu stark ein. Das ist eine gute Option, wenn die Aufgabe bereits verstanden ist, aber einzelne nicht standardmäßige Anforderungen hat.
Zum Beispiel kann für einen universellen Server für Inferenz, Visualisierung und einige Arbeitsaufgaben eine Standardbasis mit stärkerer GPU, mehr RAM und schnellen NVMe-Laufwerken geeignet sein. Für modernere Grafik- und KI-Lasten können Karten wie die NVIDIA RTX PRO 6000 Blackwell Server Edition in Betracht gezogen werden, aber nur nach Prüfung der Kompatibilität mit Gehäuse, Stromversorgung, Kühlung und Software.
Wie man die Entscheidung trifft
Vor dem Kauf eines GPU-Servers ist es sinnvoll, einen einfachen Algorithmus durchzugehen.
- Die Hauptaufgabe beschreiben: Inferenz, Training, Feinabstimmung, Rendering, VDI, Berechnungen oder gemischte Last.
- Die minimale Videospeichermenge bestimmen.
- Verstehen, wie viele GPUs jetzt benötigt werden.
- Abschätzen, wie viele GPUs in 12 Monaten erforderlich sein könnten.
- Anforderungen an CPU, RAM, Laufwerke und Netzwerk prüfen.
- Einschränkungen bei Rack, Stromversorgung und Kühlung bewerten.
- Startzeit, Risiko von Inkompatibilität und Kosten eines Fehlers vergleichen.
- Fertiges Modell, individuelle Konfiguration oder Standardbasis mit gezielten Anpassungen wählen.
Wenn die Aufgabe typisch ist und Fristen wichtig sind, sollte man besser mit einem fertigen GPU-Server beginnen. Wenn der Server Teil einer langfristigen Infrastruktur werden soll, ist es besser, zuerst ein Pflichtenheft zu erstellen und alle Einschränkungen zu prüfen. Wenn die Anforderungen teilweise nicht standardmäßig sind, ist es vernünftiger, eine geprüfte Plattform zu nehmen und sie an die Last anzupassen.
Checkliste vor dem Kauf
Vor der Bestellung sollte man diese Fragen beantworten:
- was die Hauptaufgabe des Servers ist;
- welche Anwendungen und Modelle laufen werden;
- wie viel Videospeicher jetzt benötigt wird;
- wie viel Videospeicher in einem Jahr nötig sein kann;
- wie viele GPUs zum Start benötigt werden;
- ob später GPUs hinzugefügt werden können;
- ob die CPU für die Datenvorbereitung ausreicht;
- wie viel RAM benötigt wird;
- ob lokale NVMe-Laufwerke erforderlich sind;
- wie viele Daten gespeichert werden;
- welches Netzwerk benötigt wird;
- ob der Server Teil eines Clusters wird;
- ob es Rack-Einschränkungen gibt;
- ob genug Stromversorgung vorhanden ist;
- ob Kühlungsreserve vorhanden ist;
- wer den Server wartet;
- was wichtiger ist: schneller Start oder genaue Passung zur Aufgabe;
- was passiert, wenn die Last um das 2- bis 3-Fache wächst.
Wenn ein Teil dieser Fragen nicht beantwortet werden kann, sollte man keinen Server „nach maximalen Spezifikationen“ kaufen. Zuerst muss klar sein, wo der Engpass liegen wird. Für manche Aufgaben ist es der Videospeicher, für andere Laufwerke, Netzwerk, RAM oder Kühlung.
Häufige Fragen
Was ist günstiger: ein fertiger GPU-Server oder ein individueller?
Zum Start ist ein fertiges Modell oft, aber nicht immer, günstiger und schneller. Wenn die Aufgabe jedoch nicht standardmäßig ist, kann eine individuelle Konfiguration über einen Zeitraum von 1–3 Jahren wirtschaftlicher sein: Sie reduziert das Risiko erneuter Beschaffung, Nacharbeit und Ausfallzeiten.
Kann man einen fertigen Server kaufen und später GPUs hinzufügen?
Ja, aber nicht immer. Gehäuse, Netzteile, Kühlung, freie Slots, Riser, BIOS und Unterstützung konkreter GPUs müssen im Voraus geprüft werden. Wenn diese Reserve nicht eingeplant wurde, kann ein Upgrade unmöglich oder wirtschaftlich sinnlos sein.
Wann reichen 1–2 GPUs aus?
In der Regel reichen 1–2 GPUs für Pilotprojekte, Inferenz, Rendering, VDI, Teststände und kleinere ML-Aufgaben. Die Entscheidung hängt aber nicht nur von der Zahl der GPUs ab, sondern auch von Videospeicher, Last, Nutzerzahl und Latenzanforderungen.
Wann werden 4–8 GPUs benötigt?
4–8 GPUs werden für schweres Training, große Modelle, hohe parallele Last, einen Service mit vielen Nutzern oder einen Cluster benötigt. In diesem Fall müssen Stromversorgung, Kühlung, Netzwerk, Laufwerke und Platz im Rack im Voraus geplant werden.
Was ist wichtiger: GPU oder Videospeicher?
Das hängt von der Aufgabe ab. Für große Modelle ist Videospeicher häufig kritisch. Für parallele Verarbeitung und hohen Durchsatz sind die Anzahl der GPUs, das Netzwerk und der Austausch zwischen Knoten wichtiger. Deshalb ist es falsch, einen Server nur nach dem Namen der Grafikkarte auszuwählen.
Was muss vor der Bestellung unbedingt geprüft werden?
Geprüft werden müssen GPU-Kompatibilität, Stromversorgung, Kühlung, physische Slots, Netzwerk, Laufwerke, Treiber, Software, Upgrade-Möglichkeiten und Rack-Einschränkungen. Je teurer der Server ist, desto wichtiger ist es, Last und Wachstumsszenario im Voraus zu beschreiben.
Fazit
Ein fertiger GPU-Server ist die beste Wahl, wenn die Aufgabe klar ist, Fristen wichtig sind und die Anforderungen in eine Standardkonfiguration passen. Eine individuelle Zusammenstellung wird gebraucht, wenn der Server Teil einer langfristigen Infrastruktur werden und Lastwachstum aushalten soll: mehr GPUs, mehr Videospeicher, schnellere Laufwerke sowie höhere Anforderungen an Netzwerk, Stromversorgung, Kühlung und Service.
Eine gute Wahl beginnt nicht mit der Frage „welche Grafikkarte ist leistungsstärker“, sondern mit einem kurzen technischen Pflichtenheft: welche Last, welche Modelle, wie viel Videospeicher, wie viele GPUs, welche Daten, welches Netzwerk, welche Rack-Einschränkungen und welche Reserve in einem Jahr vorhanden sein muss.
Inhaltsverzeichnis:
Fertiges Modell und individuelle Zusammenstellung: Vergleich nach wichtigen Kriterien
Wann man besser nicht ohne individuelle Konfiguration startet
Wo bei der Auswahl eines GPU-Servers die häufigsten Fehler passieren
Was in ein Pflichtenheft für einen individuellen GPU-Server gehört
Wann ein Standardmodell nach 6–12 Monaten zur Einschränkung wird
Zwischenlösung: Standardbasis mit gezielter Individualisierung