Servermall
/
Blog
/
So lesen Sie die Spezifikationen von NVIDIA-Servergrafikkarten: CUDA, Tensor-Kerne, TFLOPS, Bus, Bandbreite und TDP
/

So lesen Sie die Spezifikationen von NVIDIA-Servergrafikkarten: CUDA, Tensor-Kerne, TFLOPS, Bus, Bandbreite und TDP

Autor

SERVERMALL

Servermall – zuverlässiger Anbieter von Server-Hardware mit 10 Jahren Erfahrung.

Aktualisiert - 15. Juni 2026

Lesezeit 23 minutes

Spezifikationen von NVIDIA-Server-GPUs

Eine NVIDIA-Server-GPU sollte man nicht nach nur einer Kennzahl auswählen — egal, ob es um die Anzahl der CUDA-Kerne, Gigabyte Speicher oder den maximalen TFLOPS-Wert geht. Für LLMs, das Training neuronaler Netze, VDI, Rendering und wissenschaftliche Berechnungen sind unterschiedliche Parameter wichtig. Deshalb muss zuerst die Aufgabe klar sein, und erst danach sollte man CUDA, Tensor Cores, Rechengenauigkeit, Größe und Geschwindigkeit des Grafikspeichers, PCIe/NVLink, TDP und die Kompatibilität mit dem Server vergleichen.

In GPU-Datenblättern kann man sich leicht verlieren: Eine Karte hat mehr TFLOPS, eine andere mehr Grafikspeicher, eine dritte eine geringere Leistungsaufnahme. Eine Server-GPU arbeitet jedoch nicht isoliert. Sie steckt in einem konkreten Server, hängt von Stromversorgung und Kühlung ab, wird über PCIe oder NVLink angebunden und nutzt bestimmte Treiber und Bibliotheken. Deshalb ist die auf dem Papier „leistungsstärkste“ Karte nicht immer die beste Anschaffung.

Wenn Sie NVIDIA-GPUs für KI und neuronale Netze auswählen, ist es sinnvoller, die Spezifikationen nicht als reine Liste von Begriffen zu lesen, sondern als Antworten auf praktische Fragen:

Passt das Modell oder die Arbeitsszene in den Grafikspeicher?
Kann der Speicher die Recheneinheiten schnell genug mit Daten versorgen?
Unterstützt die GPU die benötigte Rechengenauigkeit?
Kann der Server die Karte unter Dauerlast ausreichend kühlen?
Lohnt sich der Aufpreis für ein Spitzenmodell genau in Ihrem Szenario?

Kurzes Glossar

CUDA — NVIDIA-Plattform für paralleles Rechnen auf GPUs.
CUDA-Kerne — universelle Recheneinheiten.
Tensor Cores — Einheiten für schnelle Matrixberechnungen, die für neuronale Netze wichtig sind.
TFLOPS — Billionen Gleitkommaoperationen pro Sekunde.
TOPS — Billionen Operationen pro Sekunde, häufig für niedrigpräzise Modi.
FP32 — einfache Genauigkeit.
FP16 — halbe Genauigkeit.
BF16 — Format, das häufig für das Training neuronaler Netze geeignet ist.
FP8 — kompaktes Format für moderne KI-Workloads.
INT8 — Ganzzahlformat, häufig für Inferenz.
FP64 — doppelte Genauigkeit für wissenschaftliche und technische Berechnungen.
VRAM — Grafikspeicher der GPU.
HBM — Hochgeschwindigkeitsspeicher für Top-Beschleuniger.
GDDR — verbreiteter Grafikspeicher.
Bandwidth — Speicherbandbreite.
PCIe — Schnittstelle zur Anbindung der GPU an den Server.
NVLink — schnelle Verbindung zwischen GPUs.
TDP — thermisches Design-Paket, das Stromversorgung und Kühlung beeinflusst.
vGPU — GPU-Virtualisierung für virtuelle Arbeitsplätze.
MIG — Aufteilung einer unterstützten GPU in mehrere isolierte Instanzen.

Warum GPU-Spezifikationen oft falsch gelesen werden

In der Beschreibung einer Server-GPU fallen meist eindrucksvolle Zahlen auf: zehntausende Kerne, hunderte oder tausende TFLOPS, viel Speicher und hohe Bandbreite. Das Problem ist, dass sich diese Zahlen auf unterschiedliche Teile der GPU-Arbeit beziehen.

TFLOPS zeigen zum Beispiel die theoretische Rechenleistung. Wenn eine Aufgabe jedoch durch den Grafikspeicher begrenzt wird, kann sich die hohe Spitzenleistung nicht entfalten. Wenn ein Modell nicht in den VRAM passt, muss die GPU ständig Daten mit dem System austauschen oder das Modell über mehrere Karten verteilen. Wenn der Server nicht für die erforderliche TDP ausgelegt ist, überhitzt die Karte oder arbeitet nicht mit voller Leistung.

Typische Fehler sind:

TFLOPS in unterschiedlichen Genauigkeitsmodi miteinander zu vergleichen;
eine GPU nur nach der Anzahl der CUDA-Kerne auszuwählen;
nur auf die Speicherkapazität zu achten, aber nicht auf die Geschwindigkeit;
PCIe-Lanes, NVLink und die Topologie des Servers zu vergessen;
TDP, Formfaktor und Kühlung nicht zu prüfen;
eine Karte für VDI zu kaufen, ohne die vGPU-Unterstützung zu prüfen;
einen KI-Beschleuniger für wissenschaftliche Berechnungen zu nehmen, obwohl doppelte Genauigkeit benötigt wird.

Bei Server-GPUs gibt es kein universelles Ranking von „beste“ bis „schlechteste“ Karte. Entscheidend ist die Passung zur Aufgabe.

Definieren Sie zuerst die Workload

Dieselbe GPU kann eine gute Wahl für Inferenz sein, für VDI nur bedingt passen und für wissenschaftliche Berechnungen unwirtschaftlich sein. Deshalb muss vor dem Vergleich der Spezifikationen klar sein, was genau auf dem Server laufen soll.

LLM-Inferenz

Für den Betrieb großer Sprachmodelle sind vor allem wichtig:

die Größe des Grafikspeichers;
die Speicherbandbreite;
die Unterstützung von BF16, FP16, FP8 oder INT8;
Tensor Cores;
die Geschwindigkeit des Austauschs zwischen GPUs, wenn das Modell auf mehrere Karten verteilt wird;
der Energieverbrauch pro Anfrage.

Wenn das Modell nicht in den Speicher passt, hilft die Anzahl der CUDA-Kerne nicht. Wenn es hineinpasst, der Speicher aber langsam ist, kann die Datenzufuhr zum Engpass werden. Deshalb betrachtet man bei LLMs häufig nicht nur die Rechenleistung, sondern die Kombination aus „VRAM + Bandwidth + Tensor Cores“.

Die NVIDIA H200 ist zum Beispiel gerade deshalb interessant, weil sie viel HBM3e-Speicher mit hoher Speicherbandbreite kombiniert. Das ist wichtig für große Modelle und lange Kontexte.

Training neuronaler Netze

Für das Training sind wichtig:

Tensor Cores;
Unterstützung von BF16, FP16 und FP8;
Speicher für Modell, Batch, Aktivierungen und Optimierer;
Speicherbandbreite;
NVLink oder eine andere schnelle Verbindung zwischen GPUs;
stabile Kühlung unter langer Dauerlast.

Beim Training kann eine GPU über Stunden oder Tage mit hoher Auslastung arbeiten. Deshalb reicht der Blick auf Spitzen-TFLOPS nicht aus. Es zählt die gesamte Plattform: Server, Stromversorgung, Kühlung, GPU-Topologie, Treiber und Bibliotheken.

Rendering und 3D-Grafik

Für Rendering sind wichtig:

CUDA-Kerne;
RT-Kerne, wenn Raytracing verwendet wird;
Speicher für Szenen, Texturen und Geometrie;
Kompatibilität mit der konkreten Software;
Treiber;
thermisches Verhalten.

Für solche Aufgaben ist nicht immer der teuerste KI-Beschleuniger erforderlich. Manchmal ist eine universellere Karte wie die NVIDIA L40S sinnvoller, weil sie nicht nur für KI, sondern auch für Grafik, Rendering und Multimedia-Workloads ausgelegt ist.

VDI und virtuelle Arbeitsplätze

Für VDI zählen nicht nur die „rohen“ GPU-Spezifikationen. Man sollte prüfen:

vGPU-Unterstützung;
Grafikspeicher pro Benutzer;
verfügbare Virtualisierungsprofile;
Lizenzierung;
Video-Encoding und -Decoding;
Kompatibilität mit dem Hypervisor;
Energieverbrauch und Packungsdichte.

Die NVIDIA-vGPU-Dokumentation ist gerade deshalb nützlich, weil für virtuelle Arbeitsplätze nicht nur die Hardware zählt, sondern auch das Softwaremodell: Treiberversionen, Lizenzen, Hypervisoren und unterstützte GPUs.

Wissenschaftliche und technische Berechnungen

Für HPC und technische Aufgaben sind wichtig:

FP64, wenn doppelte Genauigkeit erforderlich ist;
Speicherbandbreite;
ECC-Speicher;
Stabilität unter langer Last;
Skalierung zwischen GPUs;
Unterstützung der benötigten Bibliotheken.

Hier darf man sich nicht nur an FP8 oder INT8 orientieren. Diese Modi sind für KI nützlich, ersetzen aber FP64 nicht, wenn eine Berechnung hohe numerische Genauigkeit verlangt.

Welchen Parameter sollte man zuerst betrachten?

Parameter für die Auswahl einer NVIDIA-Server-GPU

Aufgabe	Zuerst betrachten	Danach betrachten	Was oft vergessen wird
LLM-Inferenz	Grafikspeicher	Speicherbandbreite, Tensor Cores, FP8/BF16/INT8	Das Modell passt möglicherweise nicht in den Speicher; mehrere GPUs benötigen eine schnelle Verbindung
Modelltraining	Tensor Cores und Unterstützung der benötigten Genauigkeit	VRAM, Bandwidth, NVLink	Spitzen-TFLOPS zeigen nicht die gesamte Trainingsleistung
Rendering	CUDA-/RT-Kerne	VRAM, Treiber, Softwarekompatibilität	Eine KI-Karte ist nicht immer optimal für ein konkretes Rendering-Szenario
VDI	vGPU und VRAM pro Benutzer	NVENC/NVDEC, TDP, Formfaktor	Lizenzen und Virtualisierungsprofile
Wissenschaftliche Berechnungen	FP64 und Bandwidth	ECC, NVLink, Stabilität	Nicht jede KI-GPU eignet sich für doppelte Genauigkeit
Videoanalyse	NVENC/NVDEC	TDP, Speicher, Anzahl der Streams	TFLOPS können zweitrangig sein
Gemischter Server	Balance aus VRAM, Bandwidth und TDP	Kompatibilität mit dem Server	Der Server kann bei Stromversorgung oder Kühlung an Grenzen stoßen

CUDA-Kerne: wann sie wichtig sind und wann sie in die Irre führen

CUDA-Kerne sind universelle Recheneinheiten einer GPU. Sie führen viele parallele Operationen aus und sind wichtig für Aufgaben, die sich gut parallelisieren lassen: Rendering, Simulationen, Bildverarbeitung und ein Teil der Berechnungen im maschinellen Lernen.

Die Anzahl der CUDA-Kerne darf jedoch nicht als direkte Antwort auf die Frage „Welche Karte ist schneller?“ gelesen werden. Die reale Leistung hängt ab von:

der GPU-Architektur;
Taktraten;
Speichertyp und Speichergeschwindigkeit;
Tensor Cores;
unterstützten Genauigkeitsmodi;
Treibern und Bibliotheken;
Optimierung der konkreten Anwendung.

Ein Fehler wäre, eine GPU für LLMs nur deshalb auszuwählen, weil sie mehr CUDA-Kerne hat. Für Sprachmodelle ist oft wichtiger, ob das Modell in den Speicher passt, wie schnell die GPU die Gewichte aus dem VRAM liest und ob sie den benötigten Rechenmodus unterstützt.

Für Rendering können CUDA-Kerne deutlich wichtiger sein. Aber auch dort sollte man sie zusammen mit Speicher, RT-Kernen und den Anforderungen der konkreten Engine betrachten.

Tensor Cores: warum sie für KI wichtig sind

Tensor Cores sind spezialisierte Einheiten für Matrixberechnungen. Da Matrixoperationen die Grundlage neuronaler Netze bilden, sind Tensor Cores besonders wichtig für Training und Inferenz.

H100 GPU

H100 GPU.

Bildquelle: NVIDIA

Ihre Rolle zeigt sich gut bei den Generationen NVIDIA A100, H100 und H200. Die NVIDIA H100 unterstützt zum Beispiel hohe Leistung in FP16, BF16, FP8 und INT8 und nutzt die Hopper-Architektur, die für moderne KI-Workloads entwickelt wurde.

Beim Lesen der Spezifikation sollte man nicht nur auf die Anzahl der Tensor Cores achten, sondern auch darauf, welche Modi sie unterstützen:

FP16 — verbreitetes Format für neuronale Netze;
BF16 — oft praktisch für das Training, weil es einen breiteren Wertebereich besser abbildet;
FP8 — kompakteres Format für moderne KI-Workloads;
INT8 — wird häufig für Inferenz nach Quantisierung verwendet.

Hohe Tensor-TFLOPS-Zahlen bedeuten nicht automatisch, dass jedes Modell schneller läuft. Man muss prüfen, ob das gewählte Framework, die Inference Engine und das Modell selbst den jeweiligen Modus unterstützen.

FP32, FP16, BF16, FP8, INT8 und FP64 einfach erklärt

In den Spezifikationen von Server-GPUs werden häufig unterschiedliche Genauigkeitstypen angegeben. Das sind nicht nur technische Abkürzungen. Sie zeigen, wie die GPU Zahlen speichert und verarbeitet.

FP32

Einfache Genauigkeit. Wird in allgemeinen Berechnungen, Grafik, Teilen von ML-Code und Aufgaben verwendet, bei denen die Genauigkeit nicht zu stark reduziert werden darf.

FP16

Halbe Genauigkeit. Zahlen benötigen weniger Platz, Berechnungen laufen schneller und der Speicherverbrauch sinkt. FP16 wird breit in neuronalen Netzen eingesetzt.

BF16

Ein Format, das für das Training neuronaler Netze gut geeignet ist. Es ähnelt FP16 in der Größe, verhält sich beim Training großer Modelle aber häufig stabiler.

FP8

Ein noch kompakteres Format. Es kann Training und Inferenz beschleunigen, erfordert aber Unterstützung durch GPU, Bibliotheken und Modell. Man kann nicht einfach jedes Modell nehmen und erwarten, dass FP8 ohne Anpassung dasselbe Ergebnis liefert.

INT8

Ein Ganzzahlformat. Es wird häufig für Inferenz eingesetzt, wenn das Modell bereits trainiert wurde und quantisiert werden kann. Es hilft, Speicherbedarf zu senken und Geschwindigkeit zu erhöhen, erfordert aber eine Qualitätsprüfung.

FP64

Doppelte Genauigkeit. Sie ist wichtig für bestimmte wissenschaftliche, technische und finanzmathematische Berechnungen. Für die meisten LLMs ist FP64 nicht der Hauptparameter, kann für HPC aber entscheidend sein.

Der wichtigste Fehler ist der Vergleich von Zahlen aus unterschiedlichen Modi. FP32 einer Karte kann nicht direkt mit FP8 einer anderen Karte verglichen werden. Das sind unterschiedliche Rechenarten, unterschiedliche Genauigkeiten und unterschiedliche Szenarien.

TFLOPS und TOPS: warum Spitzenleistung nicht gleich Anwendungsgeschwindigkeit ist

TFLOPS zeigen, wie viele Billionen Gleitkommaoperationen eine GPU theoretisch pro Sekunde ausführen kann. TOPS werden häufiger für niedrigpräzise oder ganzzahlige Operationen verwendet.

Spitzenwerte sind aber keine Garantie für Geschwindigkeit in einer realen Aufgabe. Das Ergebnis hängt ab von:

Rechengenauigkeit;
Batch-Größe;
Modellarchitektur;
Speichergeschwindigkeit;
Datenübertragung zwischen CPU und GPU;
Austausch zwischen mehreren GPUs;
Treiberversion;
Optimierung des Frameworks;
Temperatur und Leistungsgrenzen.

Wenn in der Spezifikation ein sehr hoher TFLOPS-Wert angegeben ist, sollte man drei Fragen stellen:

In welcher Genauigkeit wurde er gemessen?
Handelt es sich um dichte Berechnungen oder um einen Modus mit Sparsity?
Kann meine Software diesen Modus wirklich nutzen?

Für LLM-Inferenz zählen nicht nur Operationen pro Sekunde. Häufig sind Antwortlatenz, Token pro Sekunde, Kontextgröße, Speicherauslastung und Kosten pro Anfrage wichtiger.

Grafikspeicher: Größe, Typ, Bus und Bandbreite

Grafikspeicher ist einer der wichtigsten Parameter einer Server-GPU. Auch ihn darf man jedoch nicht nur nach der Kapazität bewerten.

VRAM-Kapazität

Die Größe des Grafikspeichers zeigt, wie viele Daten direkt auf der GPU liegen können, ohne ständig mit dem Systemspeicher ausgetauscht zu werden.

Sie ist wichtig für:

LLMs — damit Modell und Kontext in den Speicher passen;
Training — damit Platz für Modell, Batch, Aktivierungen und Optimierer vorhanden ist;
Rendering — damit Szene und Texturen nicht aus dem Speicher ausgelagert werden;
VDI — damit jeder Benutzer ein passendes Profil erhält;
wissenschaftliche Berechnungen — damit Daten nicht zu stark aufgeteilt werden müssen.

Wenn ein Modell mehr Speicher benötigt, als auf der GPU vorhanden ist, muss man mehrere Karten verwenden, Daten in den Systemspeicher auslagern oder Modell beziehungsweise Genauigkeit reduzieren. Alle diese Optionen wirken sich auf Geschwindigkeit und Kosten aus.

Speichertyp

Bei Server-GPUs begegnet man meist HBM und GDDR.

HBM ist teurer, sehr schneller Speicher, der in Top-Beschleunigern für KI und HPC eingesetzt wird. Er bietet hohe Bandbreite und eignet sich gut für Aufgaben, bei denen die GPU ständig große Datenmengen liest.

GDDR ist ein verbreiteterer Grafikspeicher. Er findet sich häufig in universellen GPUs für Grafik, Rendering, VDI, Video und einen Teil der KI-Aufgaben.

Die NVIDIA A100 nutzt beispielsweise HBM2e, während H100/H200 auf neuere HBM-Generationen umgestiegen sind. Deshalb können sich zwei Karten mit ähnlicher Speicherkapazität bei der realen Datenverarbeitung stark unterscheiden.

Speicherbus

Der Speicherbus ist vereinfacht gesagt die „Breite der Straße“ zwischen GPU und Grafikspeicher. Je breiter er ist, desto mehr Daten lassen sich pro Takt übertragen. Die Busbreite allein liefert aber kein vollständiges Bild.

Die endgültige Speicherbandbreite hängt ab von:

Speichertyp;
Speichertakt;
GPU-Architektur;
Speichercontrollern;
Cache;
Eigenschaften der konkreten Aufgabe.

Bandwidth

Bandwidth, also Speicherbandbreite, zeigt, wie schnell die GPU Daten aus dem VRAM lesen und in ihn schreiben kann. Für LLMs und HPC ist dieser Parameter oft kritisch.

Wenn die Recheneinheiten schneller arbeiten könnten, als der Speicher Daten liefert, bleibt ein Teil der Leistung ungenutzt. Deshalb kann eine Karte mit geringeren Spitzen-TFLOPS, aber schnellerem Speicher in einer speichergebundenen Aufgabe die bessere Wahl sein.

PCIe, NVLink und PCIe-Lanes

Eine GPU wird über eine Schnittstelle an den Server angebunden. Meist ist das PCIe. In Multi-GPU-Systemen sind außerdem NVLink und die Server-Topologie wichtig.

PCIe beeinflusst den Austausch zwischen CPU, Systemspeicher, Laufwerken und GPU. Bei einer einzelnen Karte in einer einfachen Aufgabe ist PCIe möglicherweise nicht der wichtigste Engpass. Bei großen Modellen, verteiltem Training und aktiver Datenübertragung zwischen mehreren GPUs wird die Schnittstelle jedoch deutlich wichtiger.

Bei der Serverauswahl sollte man prüfen:

wie viele PCIe-Lanes jeder GPU zur Verfügung stehen;
welche PCIe-Generation unterstützt wird;
wie viele Karten physisch hineinpassen;
ob GPUs Lanes mit anderen Geräten teilen;
ob NVLink oder NVSwitch vorhanden ist;
ob der Server die benötigte Topologie unterstützt;
ob Stromversorgung und Kühlung ausreichen.

Dass eine leistungsstarke GPU in der Preisliste steht, bedeutet nicht, dass sie problemlos in jeden Server eingebaut werden kann. Das gilt besonders bei mehreren Karten mit hoher TDP.

TDP, Stromversorgung und Kühlung

TDP beschreibt das thermische Design-Paket einer GPU. In der Serverinfrastruktur ist das nicht einfach nur „wie viel Strom die Grafikkarte verbraucht“. Es ist ein Parameter, der den gesamten Betrieb beeinflusst.

TDP hängt zusammen mit:

Wärmeabgabe;
Anforderungen an den Luftstrom;
Netzteilen;
GPU-Dichte im Server;
Lautstärke;
Temperatur im Rack;
Stromkosten;
der Möglichkeit, mehrere Karten in einem Server zu betreiben.

Viele Server-GPUs haben passive Kühlung und sind auf den Luftstrom im Server ausgelegt. Eine solche Karte ist nicht für ein gewöhnliches Gehäuse ohne korrektes Airflow-Konzept gedacht. Wenn die Kühlung nicht für die thermische Last ausgelegt ist, senkt die GPU die Taktraten, überhitzt oder arbeitet instabil.

Eine hohe TDP macht eine Karte nicht schlecht. Für Top-Beschleuniger in KI und HPC ist sie der normale Preis hoher Leistung. Die entscheidende Frage lautet: Sind Server und Rechenzentrum für diese Karte bereit, und lohnt sich ihre Leistung in Ihrer Workload?

Wie man GPU-Spezifikationen in technische Bedeutung übersetzt

Kühlung und TDP von Server-GPUs

Spezifikation	Einfache Bedeutung	Worauf sie sich auswirkt	Wann sie kritisch ist
CUDA-Kerne	Universelle parallele Recheneinheiten	Rendering, Simulationen, Teil der Berechnungen	Rendering, Teile von HPC, Bildverarbeitung
Tensor Cores	Einheiten für Matrixberechnungen	Training und Inferenz neuronaler Netze	LLM, ML, DL
TFLOPS	Theoretische Geschwindigkeit von Gleitkommaoperationen	Mögliche Rechenleistung	Nur beim Vergleich derselben Genauigkeit
TOPS	Operationen pro Sekunde für niedrigpräzise Modi	Inferenz, Quantisierung	INT8-/FP8-Inferenz
FP16/BF16/FP8	Kompakte Rechenformate	Geschwindigkeit und Speicherverbrauch	Moderne neuronale Netze
FP64	Doppelte Genauigkeit	Rechengenauigkeit	HPC, technische und wissenschaftliche Aufgaben
VRAM	Grafikspeicher	Größe von Modell, Szene oder Benutzerprofil	LLM, VDI, Rendering, Training
Bandwidth	Austauschgeschwindigkeit mit dem Grafikspeicher	Auslastung der Recheneinheiten	LLM, HPC, große Datensätze
PCIe/NVLink	Verbindung der GPU mit dem Server und anderen GPUs	Skalierung und Datenaustausch	Multi-GPU, Training, große Modelle
TDP	Thermisches Design-Paket	Stromversorgung, Kühlung, Betriebskosten	Dichte GPU-Server
Formfaktor	Physische Ausführung der Karte	Kompatibilität mit dem Server	Jede GPU-Beschaffung

Wie man ein NVIDIA-GPU-Datenblatt Schritt für Schritt liest

Vor dem Kauf ist es praktisch, die Spezifikation nach einer festen Reihenfolge zu prüfen.

Aufgabe definieren.
LLM, Training, VDI, Rendering und HPC benötigen unterschiedliche Parameter.
Grafikspeicher prüfen.
Zuerst muss klar sein, ob Modell, Szene, Datensatz oder Benutzerprofil in den Speicher passen.
Speicherbandbreite ansehen.
Besonders dann, wenn die Aufgabe mit LLMs, großen Datenmengen oder wissenschaftlichen Berechnungen verbunden ist.
Tensor Cores und Genauigkeit prüfen.
Für KI sind FP16, BF16, FP8 und INT8 wichtig, aber nur, wenn Ihr Stack damit arbeiten kann.
TFLOPS nur im gleichen Modus vergleichen.
FP32 wird mit FP32 verglichen, FP16 mit FP16, FP8 mit FP8.
Schnittstelle bewerten.
PCIe, NVLink und Server-Topologie sind besonders bei mehreren GPUs wichtig.
TDP prüfen.
Der Server muss Stromversorgung und Kühlung unter Dauerlast bewältigen.
Formfaktor klären.
PCIe und SXM sind unterschiedliche Ausführungen. Ohne passende Plattform sind sie nicht austauschbar.
Softwareunterstützung prüfen.
Treiber, CUDA, vGPU, Frameworks und Bibliotheken müssen zur Aufgabe passen.
Kosten der Gesamtlösung berechnen, nicht nur den Kartenpreis.
Dazu gehören Server, Stromversorgung, Kühlung, Lizenzen, Support, Ausfallzeiten und Skalierung.

Häufige Fehler bei der Auswahl einer NVIDIA-Server-GPU

TFLOPS ohne Genauigkeit vergleichen

Eine Karte kann hohe Werte in FP8 zeigen, eine andere in FP32 oder FP64. Das sind unterschiedliche Modi. Man kann nicht schließen „diese GPU ist schneller“, ohne zu wissen, in welcher Genauigkeit Ihre Aufgabe arbeitet.

Nach CUDA-Kernen auswählen

Die Anzahl der CUDA-Kerne ist wichtig, ersetzt aber Speicher, Tensor Cores, Bandwidth und Architektur nicht. Bei LLMs ist dieser Fehler besonders häufig.

Nur auf die VRAM-Kapazität achten

80 GB Speicher sind noch nicht die ganze Spezifikation. Man muss Speichertyp, Bandbreite, Schnittstelle und Formfaktor betrachten. Bei großen Modellen kann die Speichergeschwindigkeit genauso wichtig sein wie die Kapazität.

Den Server ignorieren

Die GPU muss physisch und elektrisch zum Server passen. Zu prüfen sind Stromversorgung, Airflow, PCIe-Lanes, Höhe und Breite der Karte, BIOS-Kompatibilität und Herstellerunterstützung.

Lizenzen für VDI nicht berücksichtigen

Für virtuelle Arbeitsplätze zählt nicht nur die GPU, sondern das gesamte vGPU-Ökosystem. Ohne passende Lizenzen und Profile löst die Karte die Aufgabe möglicherweise nicht.

Eine Top-Karte für eine leichte Workload kaufen

Nicht jede Aufgabe braucht eine H100 oder H200. Für leichte Inferenz, Videoanalyse oder VDI ist es manchmal rationaler, Karten mit geringerer TDP und passenderen Gesamtbetriebskosten zu betrachten, zum Beispiel die NVIDIA T4 16 GB oder universellere PCIe-GPUs.

Auswahlbeispiele für verschiedene Szenarien

Server für LLM-Inferenz

Zuerst muss klar sein:

wie viele Parameter das Modell hat;
in welcher Genauigkeit es laufen soll;
welche Kontextgröße benötigt wird;
ob das Modell in eine GPU passt;
ob ein Betrieb auf mehreren GPUs erforderlich ist;
ob Latenz oder Gesamtdurchsatz wichtiger ist;
ob der Stack FP8, BF16 oder INT8 unterstützt.

Für große Modelle ist es sinnvoll, GPUs mit großem und schnellem HBM-Speicher zu betrachten, zum Beispiel NVIDIA H100 80 GB oder NVIDIA H200. Wenn das Modell jedoch klein oder bereits quantisiert ist, kann eine Top-Karte überdimensioniert sein.

Server für Training

Beim Training zählt nicht nur eine einzelne GPU, sondern die gesamte Plattform. Zu bewerten ist:

wie viel Speicher Modell und Batch benötigen;
ob BF16/FP16/FP8 unterstützt wird;
ob NVLink benötigt wird;
wie viele GPUs im Server arbeiten sollen;
ob der Server eine lange Volllast aushält;
welche CUDA- und Bibliotheksversionen erforderlich sind.

Für solche Aufgaben werden häufig NVIDIA A100 80 GB, H100 oder H200 betrachtet, aber die Auswahl hängt von Trainingsumfang und Budget ab.

Server für VDI

Für virtuelle Arbeitsplätze zählt man zuerst Benutzer und Profile:

Büroaufgaben;
CAD;
3D;
Video;
Arbeit mit mehreren Monitoren;
leichte KI-Tools.

Danach berechnet man den Grafikspeicher pro Benutzer und prüft vGPU, Lizenzen und Hypervisor-Kompatibilität. In VDI ist die teuerste KI-Karte nicht immer wirtschaftlicher. Wichtiger sind Stabilität, Benutzerdichte und vorhersehbare Kosten.

Server für Rendering

Für Rendering muss man prüfen, wie die konkrete Engine die GPU nutzt. Manche Aufgaben hängen stärker von CUDA ab, andere von RT-Beschleunigung, wieder andere stoßen schnell an VRAM-Grenzen.

Wenn Szenen schwer sind, wird Speicher kritisch. Wenn Szenen klein sind, aber Rendering im Durchsatz erfolgt, sind Gesamtleistung und Kühlung wichtiger. Für gemischte Aufgaben aus Rendering, Grafik und Inferenz kann man eine NVIDIA L40S 48 GB in Betracht ziehen.

Server für wissenschaftliche Berechnungen

Hier muss man sofort klären, ob doppelte Genauigkeit benötigt wird. Wenn die Aufgabe FP64 verlangt, sagen FP8- oder INT8-Werte fast nichts über die Eignung der GPU aus.

Außerdem wichtig sind:

ECC;
bandwidth;
Skalierung;
Bibliotheken;
Reproduzierbarkeit der Ergebnisse;
Stabilität unter langer Last.

Für HPC darf man eine Karte nicht nur anhand von KI-Marketing auswählen. Man muss genau die Spezifikationen lesen, die zur wissenschaftlichen Aufgabe gehören.

Welche Schlussfolgerung sollte man vor dem Kauf ziehen?

Eine NVIDIA-Server-GPU sollte nicht nach der größten Zahl in der Spezifikation ausgewählt werden, sondern nach der Kombination von Parametern für eine konkrete Workload. Für LLMs zählen zuerst Grafikspeicher, Bandwidth, Tensor Cores und Genauigkeit. Für Training sind Speicher, Tensor Cores, NVLink und die Serverplattform wichtig. Für VDI zählen vGPU, Speicher pro Benutzer, Lizenzen und Energieeffizienz. Für Rendering sind CUDA-/RT-Kerne, VRAM und Softwarekompatibilität entscheidend. Für HPC zählen FP64, Bandwidth, ECC und Stabilität.

Vor dem Kauf sollte man nicht nur die GPU prüfen, sondern auch den Server: Stromversorgung, Kühlung, PCIe-Lanes, Formfaktor, Treiberunterstützung und Skalierbarkeit. So lässt sich vermeiden, dass eine Karte in der Spezifikation leistungsstark aussieht, in der realen Aufgabe aber nicht ihr Potenzial erreicht oder gar nicht zur gewählten Plattform passt.

Kommentare

(0)

Keine Kommentare

Kommentar schreiben

Vorname

Kommentar

Senden

Ich stimme der Verarbeitung meiner personenbezogenen Daten zu

Inhaltsverzeichnis:

Kurzes Glossar
Warum GPU-Spezifikationen oft falsch gelesen werden
Definieren Sie zuerst die Workload
Welchen Parameter sollte man zuerst betrachten?
CUDA-Kerne: wann sie wichtig sind und wann sie in die Irre führen
Tensor Cores: warum sie für KI wichtig sind
FP32, FP16, BF16, FP8, INT8 und FP64 einfach erklärt
TFLOPS und TOPS: warum Spitzenleistung nicht gleich Anwendungsgeschwindigkeit ist
Grafikspeicher: Größe, Typ, Bus und Bandbreite
PCIe, NVLink und PCIe-Lanes
TDP, Stromversorgung und Kühlung
Wie man GPU-Spezifikationen in technische Bedeutung übersetzt
Wie man ein NVIDIA-GPU-Datenblatt Schritt für Schritt liest
Häufige Fehler bei der Auswahl einer NVIDIA-Server-GPU
Auswahlbeispiele für verschiedene Szenarien
Welche Schlussfolgerung sollte man vor dem Kauf ziehen?

NÄCHSTER ARTIKEL

MIG auf NVIDIA A100/H100/H200: So teilen Sie eine einzelne Grafikkarte zwischen mehreren Aufgaben

⚙️ Eine leistungsstarke GPU soll mehrere Teams, Services oder Modelle bedienen? Dieser Leitfaden erklärt MIG verständlich — mit Profilen, Grenzen und Beispielen für A100, H100 und H200.

11. Juni 2026

28 Lesezeit

HBM vs. GDDR bei Server-Grafikkarten: Warum die A100/H100 den einen Speichertyp und die L40S/RTX PRO den anderen verwenden

🧠 HBM oder GDDR — worauf kommt es bei einer Server-GPU wirklich an? Anhand von NVIDIA A100, H100, L40S und RTX PRO zeigen wir, wann maximale Speicherbandbreite zählt und wann eine universellere GPU sinnvoller ist.

9. Juni 2026

28 Lesezeit

OEM, Original, NVL, Max-Q und Workstation Edition: Was bedeuten die Bezeichnungen der NVIDIA-GPUs?

⚡ OEM, Original, NVL, Max-Q und Workstation Edition wirken wie kleine Zusätze im Namen einer NVIDIA-GPU, können aber Stromversorgung, Kühlung, Kompatibilität und Garantie beeinflussen. Der Artikel zeigt, worauf Sie vor dem Kauf achten sollten.

8. Juni 2026

28 Lesezeit