Anmelden
Antrag auf Garantieservice

Im Falle eines Problems bieten wir Diagnosen und Reparaturen am Installationsort des Servers an. Kostenfrei.

Sprache

So lesen Sie die Spezifikationen von NVIDIA-Servergrafikkarten: CUDA, Tensor-Kerne, TFLOPS, Bus, Bandbreite und TDP

Spezifikationen von NVIDIA-Server-GPUs

Eine NVIDIA-Server-GPU sollte man nicht nach nur einer Kennzahl auswählen — egal, ob es um die Anzahl der CUDA-Kerne, Gigabyte Speicher oder den maximalen TFLOPS-Wert geht. Für LLMs, das Training neuronaler Netze, VDI, Rendering und wissenschaftliche Berechnungen sind unterschiedliche Parameter wichtig. Deshalb muss zuerst die Aufgabe klar sein, und erst danach sollte man CUDA, Tensor Cores, Rechengenauigkeit, Größe und Geschwindigkeit des Grafikspeichers, PCIe/NVLink, TDP und die Kompatibilität mit dem Server vergleichen.

In GPU-Datenblättern kann man sich leicht verlieren: Eine Karte hat mehr TFLOPS, eine andere mehr Grafikspeicher, eine dritte eine geringere Leistungsaufnahme. Eine Server-GPU arbeitet jedoch nicht isoliert. Sie steckt in einem konkreten Server, hängt von Stromversorgung und Kühlung ab, wird über PCIe oder NVLink angebunden und nutzt bestimmte Treiber und Bibliotheken. Deshalb ist die auf dem Papier „leistungsstärkste“ Karte nicht immer die beste Anschaffung.

Wenn Sie NVIDIA-GPUs für KI und neuronale Netze auswählen, ist es sinnvoller, die Spezifikationen nicht als reine Liste von Begriffen zu lesen, sondern als Antworten auf praktische Fragen:

  • Passt das Modell oder die Arbeitsszene in den Grafikspeicher?
  • Kann der Speicher die Recheneinheiten schnell genug mit Daten versorgen?
  • Unterstützt die GPU die benötigte Rechengenauigkeit?
  • Kann der Server die Karte unter Dauerlast ausreichend kühlen?
  • Lohnt sich der Aufpreis für ein Spitzenmodell genau in Ihrem Szenario?

Kurzes Glossar

CUDA — NVIDIA-Plattform für paralleles Rechnen auf GPUs.
CUDA-Kerne — universelle Recheneinheiten.
Tensor Cores — Einheiten für schnelle Matrixberechnungen, die für neuronale Netze wichtig sind.
TFLOPS — Billionen Gleitkommaoperationen pro Sekunde.
TOPS — Billionen Operationen pro Sekunde, häufig für niedrigpräzise Modi.
FP32 — einfache Genauigkeit.
FP16 — halbe Genauigkeit.
BF16 — Format, das häufig für das Training neuronaler Netze geeignet ist.
FP8 — kompaktes Format für moderne KI-Workloads.
INT8 — Ganzzahlformat, häufig für Inferenz.
FP64 — doppelte Genauigkeit für wissenschaftliche und technische Berechnungen.
VRAM — Grafikspeicher der GPU.
HBM — Hochgeschwindigkeitsspeicher für Top-Beschleuniger.
GDDR — verbreiteter Grafikspeicher.
Bandwidth — Speicherbandbreite.
PCIe — Schnittstelle zur Anbindung der GPU an den Server.
NVLink — schnelle Verbindung zwischen GPUs.
TDP — thermisches Design-Paket, das Stromversorgung und Kühlung beeinflusst.
vGPU — GPU-Virtualisierung für virtuelle Arbeitsplätze.
MIG — Aufteilung einer unterstützten GPU in mehrere isolierte Instanzen.

Warum GPU-Spezifikationen oft falsch gelesen werden

In der Beschreibung einer Server-GPU fallen meist eindrucksvolle Zahlen auf: zehntausende Kerne, hunderte oder tausende TFLOPS, viel Speicher und hohe Bandbreite. Das Problem ist, dass sich diese Zahlen auf unterschiedliche Teile der GPU-Arbeit beziehen.

TFLOPS zeigen zum Beispiel die theoretische Rechenleistung. Wenn eine Aufgabe jedoch durch den Grafikspeicher begrenzt wird, kann sich die hohe Spitzenleistung nicht entfalten. Wenn ein Modell nicht in den VRAM passt, muss die GPU ständig Daten mit dem System austauschen oder das Modell über mehrere Karten verteilen. Wenn der Server nicht für die erforderliche TDP ausgelegt ist, überhitzt die Karte oder arbeitet nicht mit voller Leistung.

Typische Fehler sind:

  • TFLOPS in unterschiedlichen Genauigkeitsmodi miteinander zu vergleichen;
  • eine GPU nur nach der Anzahl der CUDA-Kerne auszuwählen;
  • nur auf die Speicherkapazität zu achten, aber nicht auf die Geschwindigkeit;
  • PCIe-Lanes, NVLink und die Topologie des Servers zu vergessen;
  • TDP, Formfaktor und Kühlung nicht zu prüfen;
  • eine Karte für VDI zu kaufen, ohne die vGPU-Unterstützung zu prüfen;
  • einen KI-Beschleuniger für wissenschaftliche Berechnungen zu nehmen, obwohl doppelte Genauigkeit benötigt wird.

Bei Server-GPUs gibt es kein universelles Ranking von „beste“ bis „schlechteste“ Karte. Entscheidend ist die Passung zur Aufgabe.

Definieren Sie zuerst die Workload

Dieselbe GPU kann eine gute Wahl für Inferenz sein, für VDI nur bedingt passen und für wissenschaftliche Berechnungen unwirtschaftlich sein. Deshalb muss vor dem Vergleich der Spezifikationen klar sein, was genau auf dem Server laufen soll.

LLM-Inferenz

Für den Betrieb großer Sprachmodelle sind vor allem wichtig:

  • die Größe des Grafikspeichers;
  • die Speicherbandbreite;
  • die Unterstützung von BF16, FP16, FP8 oder INT8;
  • Tensor Cores;
  • die Geschwindigkeit des Austauschs zwischen GPUs, wenn das Modell auf mehrere Karten verteilt wird;
  • der Energieverbrauch pro Anfrage.

Wenn das Modell nicht in den Speicher passt, hilft die Anzahl der CUDA-Kerne nicht. Wenn es hineinpasst, der Speicher aber langsam ist, kann die Datenzufuhr zum Engpass werden. Deshalb betrachtet man bei LLMs häufig nicht nur die Rechenleistung, sondern die Kombination aus „VRAM + Bandwidth + Tensor Cores“.

Die NVIDIA H200 ist zum Beispiel gerade deshalb interessant, weil sie viel HBM3e-Speicher mit hoher Speicherbandbreite kombiniert. Das ist wichtig für große Modelle und lange Kontexte.

Training neuronaler Netze

Für das Training sind wichtig:

  • Tensor Cores;
  • Unterstützung von BF16, FP16 und FP8;
  • Speicher für Modell, Batch, Aktivierungen und Optimierer;
  • Speicherbandbreite;
  • NVLink oder eine andere schnelle Verbindung zwischen GPUs;
  • stabile Kühlung unter langer Dauerlast.

Beim Training kann eine GPU über Stunden oder Tage mit hoher Auslastung arbeiten. Deshalb reicht der Blick auf Spitzen-TFLOPS nicht aus. Es zählt die gesamte Plattform: Server, Stromversorgung, Kühlung, GPU-Topologie, Treiber und Bibliotheken.

Rendering und 3D-Grafik

Für Rendering sind wichtig:

  • CUDA-Kerne;
  • RT-Kerne, wenn Raytracing verwendet wird;
  • Speicher für Szenen, Texturen und Geometrie;
  • Kompatibilität mit der konkreten Software;
  • Treiber;
  • thermisches Verhalten.

Für solche Aufgaben ist nicht immer der teuerste KI-Beschleuniger erforderlich. Manchmal ist eine universellere Karte wie die NVIDIA L40S sinnvoller, weil sie nicht nur für KI, sondern auch für Grafik, Rendering und Multimedia-Workloads ausgelegt ist.

VDI und virtuelle Arbeitsplätze

Für VDI zählen nicht nur die „rohen“ GPU-Spezifikationen. Man sollte prüfen:

  • vGPU-Unterstützung;
  • Grafikspeicher pro Benutzer;
  • verfügbare Virtualisierungsprofile;
  • Lizenzierung;
  • Video-Encoding und -Decoding;
  • Kompatibilität mit dem Hypervisor;
  • Energieverbrauch und Packungsdichte.

Die NVIDIA-vGPU-Dokumentation ist gerade deshalb nützlich, weil für virtuelle Arbeitsplätze nicht nur die Hardware zählt, sondern auch das Softwaremodell: Treiberversionen, Lizenzen, Hypervisoren und unterstützte GPUs.

Wissenschaftliche und technische Berechnungen

Für HPC und technische Aufgaben sind wichtig:

  • FP64, wenn doppelte Genauigkeit erforderlich ist;
  • Speicherbandbreite;
  • ECC-Speicher;
  • Stabilität unter langer Last;
  • Skalierung zwischen GPUs;
  • Unterstützung der benötigten Bibliotheken.

Hier darf man sich nicht nur an FP8 oder INT8 orientieren. Diese Modi sind für KI nützlich, ersetzen aber FP64 nicht, wenn eine Berechnung hohe numerische Genauigkeit verlangt.

Welchen Parameter sollte man zuerst betrachten?

Parameter für die Auswahl einer NVIDIA-Server-GPU

Aufgabe Zuerst betrachten Danach betrachten Was oft vergessen wird
LLM-Inferenz Grafikspeicher Speicherbandbreite, Tensor Cores, FP8/BF16/INT8 Das Modell passt möglicherweise nicht in den Speicher; mehrere GPUs benötigen eine schnelle Verbindung
Modelltraining Tensor Cores und Unterstützung der benötigten Genauigkeit VRAM, Bandwidth, NVLink Spitzen-TFLOPS zeigen nicht die gesamte Trainingsleistung
Rendering CUDA-/RT-Kerne VRAM, Treiber, Softwarekompatibilität Eine KI-Karte ist nicht immer optimal für ein konkretes Rendering-Szenario
VDI vGPU und VRAM pro Benutzer NVENC/NVDEC, TDP, Formfaktor Lizenzen und Virtualisierungsprofile
Wissenschaftliche Berechnungen FP64 und Bandwidth ECC, NVLink, Stabilität Nicht jede KI-GPU eignet sich für doppelte Genauigkeit
Videoanalyse NVENC/NVDEC TDP, Speicher, Anzahl der Streams TFLOPS können zweitrangig sein
Gemischter Server Balance aus VRAM, Bandwidth und TDP Kompatibilität mit dem Server Der Server kann bei Stromversorgung oder Kühlung an Grenzen stoßen

CUDA-Kerne: wann sie wichtig sind und wann sie in die Irre führen

CUDA-Kerne sind universelle Recheneinheiten einer GPU. Sie führen viele parallele Operationen aus und sind wichtig für Aufgaben, die sich gut parallelisieren lassen: Rendering, Simulationen, Bildverarbeitung und ein Teil der Berechnungen im maschinellen Lernen.

Die Anzahl der CUDA-Kerne darf jedoch nicht als direkte Antwort auf die Frage „Welche Karte ist schneller?“ gelesen werden. Die reale Leistung hängt ab von:

  • der GPU-Architektur;
  • Taktraten;
  • Speichertyp und Speichergeschwindigkeit;
  • Tensor Cores;
  • unterstützten Genauigkeitsmodi;
  • Treibern und Bibliotheken;
  • Optimierung der konkreten Anwendung.

Ein Fehler wäre, eine GPU für LLMs nur deshalb auszuwählen, weil sie mehr CUDA-Kerne hat. Für Sprachmodelle ist oft wichtiger, ob das Modell in den Speicher passt, wie schnell die GPU die Gewichte aus dem VRAM liest und ob sie den benötigten Rechenmodus unterstützt.

Für Rendering können CUDA-Kerne deutlich wichtiger sein. Aber auch dort sollte man sie zusammen mit Speicher, RT-Kernen und den Anforderungen der konkreten Engine betrachten.

Tensor Cores: warum sie für KI wichtig sind

Tensor Cores sind spezialisierte Einheiten für Matrixberechnungen. Da Matrixoperationen die Grundlage neuronaler Netze bilden, sind Tensor Cores besonders wichtig für Training und Inferenz.

H100 GPU

H100 GPU.

Bildquelle: NVIDIA

Ihre Rolle zeigt sich gut bei den Generationen NVIDIA A100, H100 und H200. Die NVIDIA H100 unterstützt zum Beispiel hohe Leistung in FP16, BF16, FP8 und INT8 und nutzt die Hopper-Architektur, die für moderne KI-Workloads entwickelt wurde.

Beim Lesen der Spezifikation sollte man nicht nur auf die Anzahl der Tensor Cores achten, sondern auch darauf, welche Modi sie unterstützen:

  • FP16 — verbreitetes Format für neuronale Netze;
  • BF16 — oft praktisch für das Training, weil es einen breiteren Wertebereich besser abbildet;
  • FP8 — kompakteres Format für moderne KI-Workloads;
  • INT8 — wird häufig für Inferenz nach Quantisierung verwendet.

Hohe Tensor-TFLOPS-Zahlen bedeuten nicht automatisch, dass jedes Modell schneller läuft. Man muss prüfen, ob das gewählte Framework, die Inference Engine und das Modell selbst den jeweiligen Modus unterstützen.

FP32, FP16, BF16, FP8, INT8 und FP64 einfach erklärt

In den Spezifikationen von Server-GPUs werden häufig unterschiedliche Genauigkeitstypen angegeben. Das sind nicht nur technische Abkürzungen. Sie zeigen, wie die GPU Zahlen speichert und verarbeitet.

FP32

Einfache Genauigkeit. Wird in allgemeinen Berechnungen, Grafik, Teilen von ML-Code und Aufgaben verwendet, bei denen die Genauigkeit nicht zu stark reduziert werden darf.

FP16

Halbe Genauigkeit. Zahlen benötigen weniger Platz, Berechnungen laufen schneller und der Speicherverbrauch sinkt. FP16 wird breit in neuronalen Netzen eingesetzt.

BF16

Ein Format, das für das Training neuronaler Netze gut geeignet ist. Es ähnelt FP16 in der Größe, verhält sich beim Training großer Modelle aber häufig stabiler.

FP8

Ein noch kompakteres Format. Es kann Training und Inferenz beschleunigen, erfordert aber Unterstützung durch GPU, Bibliotheken und Modell. Man kann nicht einfach jedes Modell nehmen und erwarten, dass FP8 ohne Anpassung dasselbe Ergebnis liefert.

INT8

Ein Ganzzahlformat. Es wird häufig für Inferenz eingesetzt, wenn das Modell bereits trainiert wurde und quantisiert werden kann. Es hilft, Speicherbedarf zu senken und Geschwindigkeit zu erhöhen, erfordert aber eine Qualitätsprüfung.

FP64

Doppelte Genauigkeit. Sie ist wichtig für bestimmte wissenschaftliche, technische und finanzmathematische Berechnungen. Für die meisten LLMs ist FP64 nicht der Hauptparameter, kann für HPC aber entscheidend sein.

Der wichtigste Fehler ist der Vergleich von Zahlen aus unterschiedlichen Modi. FP32 einer Karte kann nicht direkt mit FP8 einer anderen Karte verglichen werden. Das sind unterschiedliche Rechenarten, unterschiedliche Genauigkeiten und unterschiedliche Szenarien.

TFLOPS und TOPS: warum Spitzenleistung nicht gleich Anwendungsgeschwindigkeit ist

TFLOPS zeigen, wie viele Billionen Gleitkommaoperationen eine GPU theoretisch pro Sekunde ausführen kann. TOPS werden häufiger für niedrigpräzise oder ganzzahlige Operationen verwendet.

Spitzenwerte sind aber keine Garantie für Geschwindigkeit in einer realen Aufgabe. Das Ergebnis hängt ab von:

  • Rechengenauigkeit;
  • Batch-Größe;
  • Modellarchitektur;
  • Speichergeschwindigkeit;
  • Datenübertragung zwischen CPU und GPU;
  • Austausch zwischen mehreren GPUs;
  • Treiberversion;
  • Optimierung des Frameworks;
  • Temperatur und Leistungsgrenzen.

Wenn in der Spezifikation ein sehr hoher TFLOPS-Wert angegeben ist, sollte man drei Fragen stellen:

  1. In welcher Genauigkeit wurde er gemessen?
  2. Handelt es sich um dichte Berechnungen oder um einen Modus mit Sparsity?
  3. Kann meine Software diesen Modus wirklich nutzen?

Für LLM-Inferenz zählen nicht nur Operationen pro Sekunde. Häufig sind Antwortlatenz, Token pro Sekunde, Kontextgröße, Speicherauslastung und Kosten pro Anfrage wichtiger.

Grafikspeicher: Größe, Typ, Bus und Bandbreite

Grafikspeicher ist einer der wichtigsten Parameter einer Server-GPU. Auch ihn darf man jedoch nicht nur nach der Kapazität bewerten.

VRAM-Kapazität

Die Größe des Grafikspeichers zeigt, wie viele Daten direkt auf der GPU liegen können, ohne ständig mit dem Systemspeicher ausgetauscht zu werden.

Sie ist wichtig für:

  • LLMs — damit Modell und Kontext in den Speicher passen;
  • Training — damit Platz für Modell, Batch, Aktivierungen und Optimierer vorhanden ist;
  • Rendering — damit Szene und Texturen nicht aus dem Speicher ausgelagert werden;
  • VDI — damit jeder Benutzer ein passendes Profil erhält;
  • wissenschaftliche Berechnungen — damit Daten nicht zu stark aufgeteilt werden müssen.

Wenn ein Modell mehr Speicher benötigt, als auf der GPU vorhanden ist, muss man mehrere Karten verwenden, Daten in den Systemspeicher auslagern oder Modell beziehungsweise Genauigkeit reduzieren. Alle diese Optionen wirken sich auf Geschwindigkeit und Kosten aus.

Speichertyp

Bei Server-GPUs begegnet man meist HBM und GDDR.

HBM ist teurer, sehr schneller Speicher, der in Top-Beschleunigern für KI und HPC eingesetzt wird. Er bietet hohe Bandbreite und eignet sich gut für Aufgaben, bei denen die GPU ständig große Datenmengen liest.

GDDR ist ein verbreiteterer Grafikspeicher. Er findet sich häufig in universellen GPUs für Grafik, Rendering, VDI, Video und einen Teil der KI-Aufgaben.

Die NVIDIA A100 nutzt beispielsweise HBM2e, während H100/H200 auf neuere HBM-Generationen umgestiegen sind. Deshalb können sich zwei Karten mit ähnlicher Speicherkapazität bei der realen Datenverarbeitung stark unterscheiden.

Speicherbus

Der Speicherbus ist vereinfacht gesagt die „Breite der Straße“ zwischen GPU und Grafikspeicher. Je breiter er ist, desto mehr Daten lassen sich pro Takt übertragen. Die Busbreite allein liefert aber kein vollständiges Bild.

Die endgültige Speicherbandbreite hängt ab von:

  • Speichertyp;
  • Speichertakt;
  • GPU-Architektur;
  • Speichercontrollern;
  • Cache;
  • Eigenschaften der konkreten Aufgabe.

Bandwidth

Bandwidth, also Speicherbandbreite, zeigt, wie schnell die GPU Daten aus dem VRAM lesen und in ihn schreiben kann. Für LLMs und HPC ist dieser Parameter oft kritisch.

Wenn die Recheneinheiten schneller arbeiten könnten, als der Speicher Daten liefert, bleibt ein Teil der Leistung ungenutzt. Deshalb kann eine Karte mit geringeren Spitzen-TFLOPS, aber schnellerem Speicher in einer speichergebundenen Aufgabe die bessere Wahl sein.

PCIe, NVLink und PCIe-Lanes

Eine GPU wird über eine Schnittstelle an den Server angebunden. Meist ist das PCIe. In Multi-GPU-Systemen sind außerdem NVLink und die Server-Topologie wichtig.

PCIe beeinflusst den Austausch zwischen CPU, Systemspeicher, Laufwerken und GPU. Bei einer einzelnen Karte in einer einfachen Aufgabe ist PCIe möglicherweise nicht der wichtigste Engpass. Bei großen Modellen, verteiltem Training und aktiver Datenübertragung zwischen mehreren GPUs wird die Schnittstelle jedoch deutlich wichtiger.

Bei der Serverauswahl sollte man prüfen:

  • wie viele PCIe-Lanes jeder GPU zur Verfügung stehen;
  • welche PCIe-Generation unterstützt wird;
  • wie viele Karten physisch hineinpassen;
  • ob GPUs Lanes mit anderen Geräten teilen;
  • ob NVLink oder NVSwitch vorhanden ist;
  • ob der Server die benötigte Topologie unterstützt;
  • ob Stromversorgung und Kühlung ausreichen.

Dass eine leistungsstarke GPU in der Preisliste steht, bedeutet nicht, dass sie problemlos in jeden Server eingebaut werden kann. Das gilt besonders bei mehreren Karten mit hoher TDP.

TDP, Stromversorgung und Kühlung

TDP beschreibt das thermische Design-Paket einer GPU. In der Serverinfrastruktur ist das nicht einfach nur „wie viel Strom die Grafikkarte verbraucht“. Es ist ein Parameter, der den gesamten Betrieb beeinflusst.

TDP hängt zusammen mit:

  • Wärmeabgabe;
  • Anforderungen an den Luftstrom;
  • Netzteilen;
  • GPU-Dichte im Server;
  • Lautstärke;
  • Temperatur im Rack;
  • Stromkosten;
  • der Möglichkeit, mehrere Karten in einem Server zu betreiben.

Viele Server-GPUs haben passive Kühlung und sind auf den Luftstrom im Server ausgelegt. Eine solche Karte ist nicht für ein gewöhnliches Gehäuse ohne korrektes Airflow-Konzept gedacht. Wenn die Kühlung nicht für die thermische Last ausgelegt ist, senkt die GPU die Taktraten, überhitzt oder arbeitet instabil.

Eine hohe TDP macht eine Karte nicht schlecht. Für Top-Beschleuniger in KI und HPC ist sie der normale Preis hoher Leistung. Die entscheidende Frage lautet: Sind Server und Rechenzentrum für diese Karte bereit, und lohnt sich ihre Leistung in Ihrer Workload?

Wie man GPU-Spezifikationen in technische Bedeutung übersetzt

Kühlung und TDP von Server-GPUs

Spezifikation Einfache Bedeutung Worauf sie sich auswirkt Wann sie kritisch ist
CUDA-Kerne Universelle parallele Recheneinheiten Rendering, Simulationen, Teil der Berechnungen Rendering, Teile von HPC, Bildverarbeitung
Tensor Cores Einheiten für Matrixberechnungen Training und Inferenz neuronaler Netze LLM, ML, DL
TFLOPS Theoretische Geschwindigkeit von Gleitkommaoperationen Mögliche Rechenleistung Nur beim Vergleich derselben Genauigkeit
TOPS Operationen pro Sekunde für niedrigpräzise Modi Inferenz, Quantisierung INT8-/FP8-Inferenz
FP16/BF16/FP8 Kompakte Rechenformate Geschwindigkeit und Speicherverbrauch Moderne neuronale Netze
FP64 Doppelte Genauigkeit Rechengenauigkeit HPC, technische und wissenschaftliche Aufgaben
VRAM Grafikspeicher Größe von Modell, Szene oder Benutzerprofil LLM, VDI, Rendering, Training
Bandwidth Austauschgeschwindigkeit mit dem Grafikspeicher Auslastung der Recheneinheiten LLM, HPC, große Datensätze
PCIe/NVLink Verbindung der GPU mit dem Server und anderen GPUs Skalierung und Datenaustausch Multi-GPU, Training, große Modelle
TDP Thermisches Design-Paket Stromversorgung, Kühlung, Betriebskosten Dichte GPU-Server
Formfaktor Physische Ausführung der Karte Kompatibilität mit dem Server Jede GPU-Beschaffung

Wie man ein NVIDIA-GPU-Datenblatt Schritt für Schritt liest

Vor dem Kauf ist es praktisch, die Spezifikation nach einer festen Reihenfolge zu prüfen.

  1. Aufgabe definieren.
    LLM, Training, VDI, Rendering und HPC benötigen unterschiedliche Parameter.
  2. Grafikspeicher prüfen.
    Zuerst muss klar sein, ob Modell, Szene, Datensatz oder Benutzerprofil in den Speicher passen.
  3. Speicherbandbreite ansehen.
    Besonders dann, wenn die Aufgabe mit LLMs, großen Datenmengen oder wissenschaftlichen Berechnungen verbunden ist.
  4. Tensor Cores und Genauigkeit prüfen.
    Für KI sind FP16, BF16, FP8 und INT8 wichtig, aber nur, wenn Ihr Stack damit arbeiten kann.
  5. TFLOPS nur im gleichen Modus vergleichen.
    FP32 wird mit FP32 verglichen, FP16 mit FP16, FP8 mit FP8.
  6. Schnittstelle bewerten.
    PCIe, NVLink und Server-Topologie sind besonders bei mehreren GPUs wichtig.
  7. TDP prüfen.
    Der Server muss Stromversorgung und Kühlung unter Dauerlast bewältigen.
  8. Formfaktor klären.
    PCIe und SXM sind unterschiedliche Ausführungen. Ohne passende Plattform sind sie nicht austauschbar.
  9. Softwareunterstützung prüfen.
    Treiber, CUDA, vGPU, Frameworks und Bibliotheken müssen zur Aufgabe passen.
  10. Kosten der Gesamtlösung berechnen, nicht nur den Kartenpreis.
    Dazu gehören Server, Stromversorgung, Kühlung, Lizenzen, Support, Ausfallzeiten und Skalierung.

Häufige Fehler bei der Auswahl einer NVIDIA-Server-GPU

TFLOPS ohne Genauigkeit vergleichen

Eine Karte kann hohe Werte in FP8 zeigen, eine andere in FP32 oder FP64. Das sind unterschiedliche Modi. Man kann nicht schließen „diese GPU ist schneller“, ohne zu wissen, in welcher Genauigkeit Ihre Aufgabe arbeitet.

Nach CUDA-Kernen auswählen

Die Anzahl der CUDA-Kerne ist wichtig, ersetzt aber Speicher, Tensor Cores, Bandwidth und Architektur nicht. Bei LLMs ist dieser Fehler besonders häufig.

Nur auf die VRAM-Kapazität achten

80 GB Speicher sind noch nicht die ganze Spezifikation. Man muss Speichertyp, Bandbreite, Schnittstelle und Formfaktor betrachten. Bei großen Modellen kann die Speichergeschwindigkeit genauso wichtig sein wie die Kapazität.

Den Server ignorieren

Die GPU muss physisch und elektrisch zum Server passen. Zu prüfen sind Stromversorgung, Airflow, PCIe-Lanes, Höhe und Breite der Karte, BIOS-Kompatibilität und Herstellerunterstützung.

Lizenzen für VDI nicht berücksichtigen

Für virtuelle Arbeitsplätze zählt nicht nur die GPU, sondern das gesamte vGPU-Ökosystem. Ohne passende Lizenzen und Profile löst die Karte die Aufgabe möglicherweise nicht.

Eine Top-Karte für eine leichte Workload kaufen

Nicht jede Aufgabe braucht eine H100 oder H200. Für leichte Inferenz, Videoanalyse oder VDI ist es manchmal rationaler, Karten mit geringerer TDP und passenderen Gesamtbetriebskosten zu betrachten, zum Beispiel die NVIDIA T4 16 GB oder universellere PCIe-GPUs.

Auswahlbeispiele für verschiedene Szenarien

Server für LLM-Inferenz

Zuerst muss klar sein:

  • wie viele Parameter das Modell hat;
  • in welcher Genauigkeit es laufen soll;
  • welche Kontextgröße benötigt wird;
  • ob das Modell in eine GPU passt;
  • ob ein Betrieb auf mehreren GPUs erforderlich ist;
  • ob Latenz oder Gesamtdurchsatz wichtiger ist;
  • ob der Stack FP8, BF16 oder INT8 unterstützt.

Für große Modelle ist es sinnvoll, GPUs mit großem und schnellem HBM-Speicher zu betrachten, zum Beispiel NVIDIA H100 80 GB oder NVIDIA H200. Wenn das Modell jedoch klein oder bereits quantisiert ist, kann eine Top-Karte überdimensioniert sein.

Server für Training

Beim Training zählt nicht nur eine einzelne GPU, sondern die gesamte Plattform. Zu bewerten ist:

  • wie viel Speicher Modell und Batch benötigen;
  • ob BF16/FP16/FP8 unterstützt wird;
  • ob NVLink benötigt wird;
  • wie viele GPUs im Server arbeiten sollen;
  • ob der Server eine lange Volllast aushält;
  • welche CUDA- und Bibliotheksversionen erforderlich sind.

Für solche Aufgaben werden häufig NVIDIA A100 80 GB, H100 oder H200 betrachtet, aber die Auswahl hängt von Trainingsumfang und Budget ab.

Server für VDI

Für virtuelle Arbeitsplätze zählt man zuerst Benutzer und Profile:

  • Büroaufgaben;
  • CAD;
  • 3D;
  • Video;
  • Arbeit mit mehreren Monitoren;
  • leichte KI-Tools.

Danach berechnet man den Grafikspeicher pro Benutzer und prüft vGPU, Lizenzen und Hypervisor-Kompatibilität. In VDI ist die teuerste KI-Karte nicht immer wirtschaftlicher. Wichtiger sind Stabilität, Benutzerdichte und vorhersehbare Kosten.

Server für Rendering

Für Rendering muss man prüfen, wie die konkrete Engine die GPU nutzt. Manche Aufgaben hängen stärker von CUDA ab, andere von RT-Beschleunigung, wieder andere stoßen schnell an VRAM-Grenzen.

Wenn Szenen schwer sind, wird Speicher kritisch. Wenn Szenen klein sind, aber Rendering im Durchsatz erfolgt, sind Gesamtleistung und Kühlung wichtiger. Für gemischte Aufgaben aus Rendering, Grafik und Inferenz kann man eine NVIDIA L40S 48 GB in Betracht ziehen.

Server für wissenschaftliche Berechnungen

Hier muss man sofort klären, ob doppelte Genauigkeit benötigt wird. Wenn die Aufgabe FP64 verlangt, sagen FP8- oder INT8-Werte fast nichts über die Eignung der GPU aus.

Außerdem wichtig sind:

  • ECC;
  • bandwidth;
  • Skalierung;
  • Bibliotheken;
  • Reproduzierbarkeit der Ergebnisse;
  • Stabilität unter langer Last.

Für HPC darf man eine Karte nicht nur anhand von KI-Marketing auswählen. Man muss genau die Spezifikationen lesen, die zur wissenschaftlichen Aufgabe gehören.

Welche Schlussfolgerung sollte man vor dem Kauf ziehen?

Eine NVIDIA-Server-GPU sollte nicht nach der größten Zahl in der Spezifikation ausgewählt werden, sondern nach der Kombination von Parametern für eine konkrete Workload. Für LLMs zählen zuerst Grafikspeicher, Bandwidth, Tensor Cores und Genauigkeit. Für Training sind Speicher, Tensor Cores, NVLink und die Serverplattform wichtig. Für VDI zählen vGPU, Speicher pro Benutzer, Lizenzen und Energieeffizienz. Für Rendering sind CUDA-/RT-Kerne, VRAM und Softwarekompatibilität entscheidend. Für HPC zählen FP64, Bandwidth, ECC und Stabilität.

Vor dem Kauf sollte man nicht nur die GPU prüfen, sondern auch den Server: Stromversorgung, Kühlung, PCIe-Lanes, Formfaktor, Treiberunterstützung und Skalierbarkeit. So lässt sich vermeiden, dass eine Karte in der Spezifikation leistungsstark aussieht, in der realen Aufgabe aber nicht ihr Potenzial erreicht oder gar nicht zur gewählten Plattform passt.


Kommentare
(0)
Keine Kommentare
Kommentar schreiben
Ich stimme der Verarbeitung meiner personenbezogenen Daten zu

NÄCHSTER ARTIKEL

Erfahren Sie als Erster von neuen Beiträgen und verdienen Sie 50 €.