Anmelden
Antrag auf Garantieservice

Im Falle eines Problems bieten wir Diagnosen und Reparaturen am Installationsort des Servers an. Kostenfrei.

Sprache

NVIDIA H100, H200 und A100 für LLM: Vergleich von Speicher, Bandbreite und Anwendungsszenarien

NVIDIA H100, H200 und A100 für LLM

Wenn Sie eine GPU für LLMs auswählen, bleibt die A100 in vielen Fällen die rationale Wahl für Pilotprojekte, Feinabstimmung und moderate Inferenz. Die H100 lohnt sich dort, wo Geschwindigkeit, FP8 und eine hohe Auslastung wichtig sind. Die H200 wird interessant, wenn das Projekt an die Grenzen von Videospeicher und Speicherbandbreite stößt. Einfach gesagt: A100 steht für ein vernünftiges Budget, H100 für Leistung, H200 für große Modelle, lange Kontexte und dichte Inferenz.

Ein Vergleich von NVIDIA A100, H100 und H200 lässt sich nicht auf die Frage „Welche ist schneller?“ reduzieren. Für große Sprachmodelle sind mehrere Faktoren gleichzeitig entscheidend:

  • wie viel Videospeicher auf einer GPU verfügbar ist;
  • wie schnell die GPU Daten aus dem Speicher lesen kann;
  • ob die Karte moderne Rechenformate unterstützt;
  • ob mehrere GPUs in einem Server kombiniert werden können;
  • ob Stromversorgung und Kühlung des Servers ausreichen;
  • wie hoch nicht nur die Anschaffungskosten, sondern auch die Betriebskosten sind.

Deshalb kann ein und dieselbe Karte in einem Szenario eine gute Wahl sein und in einem anderen nicht. Für die Feinabstimmung eines mittelgroßen Modells kann eine A100 völlig ausreichen. Für Training oder schwere Inferenz bringt die H100 einen deutlichen Leistungsschub. Für große Modelle mit langem Kontext ist die H200 oft nicht deshalb interessanter als die H100, weil sie „neuer“ ist, sondern weil sie mehr und schnelleren Speicher bietet.

So treffen Sie die Wahl in einer Minute

A100 sollten Sie in Betracht ziehen, wenn:

  • das Budget begrenzt ist;
  • eine ausgereifte und gut unterstützte Plattform benötigt wird;
  • sich das Projekt noch in der Experimentierphase befindet oder diese gerade verlässt;
  • Feinabstimmung, Modelltests und moderate Inferenz geplant sind;
  • ein Refurbished-Server oder eine Refurbished-Karte infrage kommt;
  • der Einstiegspreis wichtiger ist als maximale Geschwindigkeit.

H100 eignet sich besser, wenn:

  • Training und Feinabstimmung moderner Modelle beschleunigt werden müssen;
  • Inferenz unter hoher Last wichtig ist;
  • ein Stack genutzt wird, der mit FP8 arbeiten kann;
  • das Projekt eine hohe Leistung pro GPU benötigt;
  • die Serverplattform für dichte GPU-Konfigurationen ausgelegt ist.

H200 ist sinnvoll, wenn:

  • Modell, Kontext oder Batch an die Grenzen des Videospeichers stoßen;
  • Inferenz großer LLMs benötigt wird;
  • RAG mit umfangreichen Dokumenten eingesetzt wird;
  • eine dichte Verarbeitung vieler Anfragen wichtig ist;
  • die H100 nicht mehr wegen der Geschwindigkeit, sondern wegen des Speichers ausreicht.

Für die Auswahl einer fertigen Infrastruktur für solche Aufgaben sollte man nicht nur einzelne GPUs betrachten, sondern auch Server mit NVIDIA-GPU, denn in LLM-Projekten existiert die Karte fast nie getrennt von Chassis, Stromversorgung, Kühlung, Netzwerk und Storage.

Warum für LLMs nicht nur Teraflops wichtig sind

In klassischen GPU-Vergleichen liegt der Fokus oft auf der Spitzenleistung. Für LLMs ist dieser Wert nützlich, aber unvollständig. Ein großes Sprachmodell arbeitet ständig mit riesigen Datenmengen: Gewichten, Zwischenergebnissen, Attention-Cache, Eingabetokens und Anfrage-Batches.

Deshalb läuft die reale Auswahl häufig nicht auf die Frage „Welche GPU ist die leistungsstärkste?“ hinaus, sondern auf deutlich praktischere Fragen:

  1. Passt das Modell in den Speicher?
  2. Lässt sich der benötigte Kontext halten?
  3. Reicht die Speicherbandbreite aus?
  4. Wie effizient werden mehrere GPUs genutzt?
  5. Was kostet ein nützliches Ergebnis: Experiment, Anfrage, Batch oder Trainingsstunde?

Videospeicher

Videospeicher ist einer der wichtigsten Parameter für LLMs. Darin werden abgelegt:

  • Modellgewichte;
  • Attention-Cache;
  • Zwischendaten beim Training;
  • Batch-Daten;
  • Hilfsstrukturen des Frameworks;
  • ein Teil der Daten für verteilte Ausführung.

Je größer Modell und Kontext sind, desto schneller wird der Speicher zum Engpass. Bei der Inferenz kann es zum Beispiel vorkommen, dass die Rechenleistung noch ausreicht, ein langer Kontext und ein großer Batch aber bereits nicht mehr in den verfügbaren Speicher passen. In einem solchen Fall ist eine schnellere GPU mit weniger Speicher nicht immer die bessere Wahl.

Die A100 ist in Versionen mit 40 und 80 GB erhältlich. Für die H100 gibt NVIDIA in den offiziellen Spezifikationen für SXM/NVL 80 und 94 GB Speicher an. Die H200 bietet bereits 141 GB HBM3e, und genau das ist ihr wichtigster Unterschied für LLM-Szenarien.

Speicherbandbreite

Speicherbandbreite von GPUs für LLM

Die Speicherbandbreite zeigt, wie schnell eine GPU Daten in ihrem eigenen Speicher lesen und schreiben kann. Für LLMs ist das kritisch: Das Modell greift ständig auf Gewichte und Cache zu, besonders bei der Textgenerierung und bei der Arbeit mit großem Kontext.

Vereinfacht gesagt beantwortet die Speicherkapazität die Frage „Passt die Aufgabe hinein?“, während die Speicherbandbreite beantwortet: „Wie schnell kann die GPU damit arbeiten?“

Nach offiziellen Angaben von NVIDIA:

  • hat die A100 80GB eine Speicherbandbreite von mehr als 2 TB/s;
  • die H100 SXM erreicht 3,35 TB/s, die H100 NVL 3,9 TB/s;
  • die H200 erreicht 4,8 TB/s.

Deshalb ist die H200 besonders interessant für Aufgaben, bei denen die GPU nicht nur „rechnet“, sondern ständig große Datenmengen durch den Speicher bewegt: große Inferenz, Batch-Generierung, langer Kontext, RAG sowie mehrere Nutzer oder Services auf einer Plattform.

Rechenformate

Für LLMs zählt nicht nur die „rohe“ Leistung, sondern auch das Format, in dem Berechnungen ausgeführt werden.

Die häufigsten Varianten sind:

  • FP32 — hohe Genauigkeit, aber hoher Speicher- und Rechenaufwand.
  • FP16/BF16 — ein verbreiteter Ansatz für Training und Feinabstimmung.
  • FP8 — ein kompakteres Format, das besonders für H100 und H200 wichtig ist.
  • INT8 und andere Quantisierungsvarianten — werden häufig für Inferenz eingesetzt, wenn Speicherbedarf reduziert und Antworten beschleunigt werden sollen.

FP8 bedeutet nicht, dass jede Aufgabe automatisch schneller und günstiger wird. Dafür braucht es kompatible Bibliotheken, korrekte Einstellungen und eine Prüfung der Modellqualität. Für moderne LLM-Workloads ist die FP8-Unterstützung von H100 und H200 aber ein klarer Vorteil gegenüber der A100.

Verbindung zwischen GPUs

Große Modelle beschränken sich oft nicht auf eine einzelne Karte. Mehrere GPUs können in einem Server oder in mehreren Knoten zusammenarbeiten. Dann wird die Geschwindigkeit des Datenaustauschs zwischen ihnen wichtig.

Dabei tauchen drei wichtige Begriffe auf:

  • PCIe — die Standardschnittstelle für den Anschluss von Geräten im Server.
  • NVLink — eine schnellere Verbindung zwischen GPUs.
  • NVSwitch — eine Technologie für dichte Multi-GPU-Systeme, in denen mehrere Karten schnell Daten miteinander austauschen müssen.

Für die Inferenz eines kleineren Modells auf einer GPU ist das Interconnect möglicherweise nicht der wichtigste Faktor. Für Training, Modellverteilung über mehrere GPUs oder den Betrieb großer Modelle wird die Verbindung zwischen den Karten jedoch zu einem der möglichen Engpässe.

Vergleich der Eigenschaften von A100, H100 und H200

Parameter NVIDIA A100 NVIDIA H100 NVIDIA H200
Architektur Ampere Hopper Hopper
Typischer Speicher 40/80 GB 80 GB SXM, 94 GB NVL 141 GB
Speichertyp HBM2/HBM2e HBM3 / abhängig von der Version HBM3e
Speicherbandbreite mehr als 2 TB/s bei A100 80GB 3,35–3,9 TB/s für SXM/NVL 4,8 TB/s
FP8 nein ja ja
Aufteilung der GPU in Instanzen bis zu 7 Instanzen bis zu 7 Instanzen bis zu 7 Instanzen
Hauptrolle ausgereifte und häufig wirtschaftlichere Plattform hohe Geschwindigkeit für LLM-Workloads große Modelle, langer Kontext, dichte Inferenz
Besonders passend für Pilotprojekte, Feinabstimmung, moderate Inferenz Training, Feinabstimmung, schnelle Inferenz RAG, Batch-Generierung, Aufgaben mit hohem Speicherbedarf

Diese Tabelle ist ein nützlicher Ausgangspunkt. Entscheidend ist jedoch nicht die abstrakte Frage „A100 gegen H100 gegen H200“, sondern die konkrete Version und der konkrete Server.

H100 SXM, H100 NVL und H100 PCIe sind beispielsweise hinsichtlich Speicher, Stromversorgung, Kühlung und Interconnect nicht dasselbe. Auch die H200 entfaltet ihr Potenzial nur auf einer Plattform, die für ihren Strombedarf, Luftstrom und die dichte Bestückung ausgelegt ist.

Wenn nicht nur die Karte, sondern auch kompatible Hardware ausgewählt werden soll, ist es sinnvoll, den Katalog der NVIDIA-GPUs für KI und neuronale Netze zusammen mit Serverplattformen zu betrachten.

A100 für LLM: Wann sie weiterhin rational ist

NVIDIA A100 für LLM

Bildquelle: NVIDIA

Die NVIDIA A100 wirkt im Vergleich zu H100 und H200 nicht mehr wie die neueste Karte. Das macht sie für LLMs aber keineswegs nutzlos. In der Praxis bleibt die A100 dort stark, wo eine ausgereifte Infrastruktur, vorhersehbare Kompatibilität und ein vernünftigerer Preis wichtig sind.

Stärken der A100

Die A100 eignet sich für viele Aufgaben, bei denen nicht die maximale Leistung der Hopper-Generation erforderlich ist:

  • Feinabstimmung von Modellen;
  • Inferenz mittelgroßer Modelle;
  • Experimente mit Architekturen;
  • Forschungsaufgaben;
  • ML-Pipelines im Unternehmen;
  • Tests von RAG-Systemen;
  • Training moderat großer Modelle;
  • Aufteilung der GPU auf mehrere Workloads.

Ein zusätzlicher Vorteil ist die Reife des Ökosystems. Treiber, Frameworks, Serverkonfigurationen, Monitoring und Betriebspraktiken sind für die A100 bereits gut erprobt. Für ein Team, das gerade erst eine LLM-Infrastruktur aufbaut, kann das wichtiger sein als maximale Geschwindigkeit.

Wo A100 die beste Wahl sein kann

Die A100 ist besonders sinnvoll, wenn ein Projekt ohne übermäßiges Budget starten soll. Zum Beispiel:

  • ein Unternehmen startet einen internen Assistenten;
  • ein Team testet mehrere offene Modelle;
  • die Last ist noch nicht konstant;
  • die Hypothese ist wichtiger als der sofortige Aufbau eines teuren Clusters;
  • das Modell passt in 40 oder 80 GB Speicher;
  • FP8 wird nicht benötigt;
  • Refurbished-Hardware kann eingesetzt werden.

In solchen Szenarien kann die A100 das beste Verhältnis aus Preis und Nutzen liefern. Der Kauf einer H100 oder H200 ist nur dann gerechtfertigt, wenn die Beschleunigung tatsächlich die Kosten für Experimente, die Kosten pro Anfrage oder das Ausfallrisiko senkt.

Grenzen der A100

Die wichtigsten Einschränkungen der A100 für moderne LLMs sind:

  • kein FP8;
  • geringere Speicherbandbreite als H100 und H200;
  • weniger Videospeicherreserve im Vergleich zur H200;
  • schwierigere Arbeit mit sehr langem Kontext;
  • schnellere Engpässe bei wachsendem Batch und größerem Modell.

Die A100 sollte nicht „aus Gewohnheit“ gewählt werden, wenn das Projekt von Anfang an für schwere Inferenz großer Modelle, langen Kontext und hohe Nutzerdichte ausgelegt ist. Ist die Aufgabe jedoch moderat und das Budget wichtig, kann die A100 weiterhin die vernünftigste Option sein.

H100 für LLM: Wo der reale Leistungsschub entsteht

NVIDIA H100 für LLM

Bildquelle: NVIDIA

H100 ist bereits eine andere Klasse von Beschleuniger für LLMs. Ihr Vorteil liegt nicht nur darin, dass sie neuer ist als die A100. Entscheidend sind die Hopper-Architektur, FP8-Unterstützung, hohe Speicherbandbreite und die bessere Eignung für moderne AI-Pipelines.

Warum H100 in LLM-Aufgaben schneller ist

Die H100 spielt ihre Stärken dort aus, wo die Last ihre Möglichkeiten tatsächlich nutzt:

  • Training und Feinabstimmung großer Modelle;
  • Inferenz mit hoher Anfragefrequenz;
  • große Batches;
  • moderne Bibliotheken mit FP8-Unterstützung;
  • verteilte Arbeit mehrerer GPUs;
  • optimierte Frameworks für Transformer.

Wenn das Team einen modernen Stack nutzt und mit neueren GPUs umgehen kann, kann die H100 die Experimentierzeit verkürzen und das Modell schneller in die Produktion bringen. Das ist nicht nur für das technische Team wichtig, sondern auch für das Geschäft: schneller trainiert, schneller Hypothesen geprüft, schneller Modellupdates bereitgestellt.

Für fertige Konfigurationen kann man Server mit NVIDIA-GPU betrachten. Bei der Auswahl sollte jedoch nicht nur die Karte geprüft werden, sondern die gesamte Plattform: CPU, Arbeitsspeicher, Steckplätze, Kühlung, Netzteile und Netzwerkschnittstellen.

Wann H100 besser ist als A100

Die H100 schlägt die A100 in der Regel, wenn:

  • das Modell größer ist;
  • der Batch größer ist;
  • eine hohe Inferenzgeschwindigkeit erforderlich ist;
  • die Zeit für die Feinabstimmung reduziert werden soll;
  • FP8 verwendet wird;
  • eine hohe konstante Auslastung vorhanden ist;
  • die Infrastruktur für mehrere GPUs ausgelegt ist.

Besonders gut sieht die H100 in Produktionsszenarien aus, in denen Beschleunigung direkt zu Geld wird. Wenn die GPU den Großteil der Zeit ausgelastet ist, kann sich eine teurere Karte durch höhere Leistung und niedrigere Kosten pro Anfrage amortisieren.

Wann H100 überdimensioniert sein kann

Die H100 ist nicht immer gerechtfertigt. Sie kann überdimensioniert sein, wenn:

  • das Modell klein ist;
  • es nur wenige Anfragen gibt;
  • sich das Projekt in einer frühen Pilotphase befindet;
  • das Team den Code noch nicht optimiert hat;
  • der Engpass im Storage, Netzwerk oder in der Anwendungslogik liegt;
  • die Serverplattform die GPU nicht ausreizen kann.

Ein häufiger Fehler ist der Kauf einer H100, obwohl das eigentliche Problem gar nicht in der GPU liegt. Wenn Daten beispielsweise langsam aus dem Storage geliefert werden oder das Modell schlecht optimiert ist, kann der Wechsel von A100 auf H100 hinter den Erwartungen zurückbleiben.

H200 für LLM: Wenn der Speicher entscheidet

NVIDIA H200 für LLM

Bildquelle: NVIDIA

H200 wird oft als „noch leistungsstärkere H100“ wahrgenommen. Treffender ist jedoch eine andere Sichtweise: Es ist eine GPU, bei der der Schwerpunkt auf mehr und schnellerem Speicher liegt.

Die H200 verfügt über 141 GB HBM3e-Speicher und eine Speicherbandbreite von 4,8 TB/s. NVIDIA gibt außerdem für H200 die Unterstützung von FP8 sowie je nach Version die Formfaktoren SXM/PCIe an.

Warum 141 GB für LLMs wichtig sind

Ein großer Speicher hilft nicht nur dabei, „ein größeres Modell zu starten“. Er beeinflusst das gesamte Arbeitsszenario:

  • mehr Gewichte können auf einer GPU gehalten werden;
  • die Arbeit mit langem Kontext wird einfacher;
  • der Batch kann vergrößert werden;
  • es entsteht mehr Platz für den Attention-Cache;
  • mehrere Anfrage-Streams lassen sich leichter bedienen;
  • die Wahrscheinlichkeit sinkt, dass das Modell ungünstig auf mehrere Karten aufgeteilt werden muss.

Das ist besonders wichtig für die Inferenz großer Modelle. Beim Training ist häufig ohnehin ein Multi-GPU-System erforderlich. Bei der Inferenz kann zusätzlicher Speicher auf einer GPU jedoch die Architektur deutlich vereinfachen und die Bedienungsdichte erhöhen.

Wo H200 besonders stark ist

Die H200 sollte für Aufgaben betrachtet werden, bei denen die H100 bereits an Speichergrenzen stößt:

  • Inferenz großer LLMs;
  • RAG mit umfangreichen Dokumenten;
  • Verarbeitung großer Batches;
  • Unternehmensassistenten mit langer Dialoghistorie;
  • mehrere Modelle oder Services auf einer GPU-Plattform;
  • Szenarien, in denen mehr Anfragen auf derselben Rackfläche verarbeitet werden müssen.

RAG ist hier besonders wichtig. In solchen Systemen generiert das Modell nicht nur eine Antwort, sondern erhält zusätzliche Dokumentfragmente, Anweisungen, Historie und Kontext. Je länger der Kontext ist, desto höher sind die Speicheranforderungen. Deshalb kann die H200 nicht „für die Optik“ wertvoll sein, sondern als Möglichkeit, Beschränkungen bei großen Eingabedaten zu reduzieren.

Wann H200 nicht nötig ist

Die H200 sollte nicht automatisch gewählt werden. Sie kann unnötig teuer sein, wenn:

  • das Modell klein ist;
  • der Kontext kurz ist;
  • die Last selten auftritt;
  • die Inferenz nicht am Speicherlimit liegt;
  • das Projekt nur eine Hypothese testet;
  • der Server nicht für eine solche GPU ausgelegt ist;
  • die Wirtschaftlichkeit des Projekts nicht berechnet wurde.

Wenn A100 oder H100 die Aufgabe bereits mit Reserve abdecken, liefert die H200 möglicherweise keinen proportionalen Mehrwert. Sie sollte dann gewählt werden, wenn die Berechnung zeigt: Zusätzlicher Speicher und zusätzliche Bandbreite reduzieren tatsächlich die Serveranzahl, beschleunigen die Verarbeitung oder senken die Kosten pro Anfrage.

Was für verschiedene LLM-Szenarien wählen?

Szenario A100 H100 H200 Worauf achten?
LLM von Grund auf trainieren Begrenzt geeignet, häufiger für moderate Modelle Starke Wahl Starke Wahl, wenn Speicher wichtig ist Die gesamte Plattform ist wichtig, nicht nur eine GPU
Feinabstimmung Oft rational Schneller und effizienter Nützlich bei großen Modellen und langem Kontext Methode der Feinabstimmung und Modellgröße prüfen
Inferenz Gute Budgetoption Hohe Geschwindigkeit Hohe Dichte und Speicherreserve Kosten pro Anfrage berechnen
RAG Ausreichend für moderaten Kontext Gut Besser bei langem Kontext Auch Storage und Vektordatenbank sind wichtig
Batch-Inferenz Geeignet bei moderaten Batches Gut Besonders gut bei großen Batches Speicher und Speicherbandbreite entscheiden häufig
Geteilte GPU-Plattform Sinnvoll durch GPU-Aufteilung Höhere Leistung Mehr Speicher für dichte Szenarien Isolation, Monitoring und Limits erforderlich
Pilotprojekt Häufig beste Wahl Kann teuer sein Meist überdimensioniert Einstiegspreis und Flexibilität sind wichtiger
Produktion mit hoher Last Hängt vom Modell ab Oft gerechtfertigt Für große LLMs gerechtfertigt TCO und SLA berechnen

Diese Tabelle ersetzt keine Tests. Die endgültige Wahl hängt von Modell, Kontextlänge, Gewichtsformat, Batch, Framework, Latenzanforderungen und verfügbarer Serverplattform ab.

Formfaktor und Plattform: Wo häufig Fehler entstehen

GPU-Server für LLM

Einer der riskantesten Ansätze besteht darin, eine GPU anhand ihrer technischen Daten auszuwählen und erst danach nach einem passenden Server zu suchen. Für H100 und H200 ist das besonders gefährlich: Verschiedene Kartenversionen benötigen unterschiedliche Server, Stromversorgung, Kühlung und Interconnects.

PCIe

PCIe-Karten lassen sich einfacher in Standardserver integrieren. Das ist in der Regel der flexiblere Weg, wenn eine, zwei oder mehrere GPUs eingesetzt werden sollen, ohne auf eine spezialisierte HGX/DGX-Plattform umzusteigen.

Vorteile von PCIe:

  • größere Serverauswahl;
  • einfachere Modernisierung;
  • verständlichere Wartung;
  • leichtere Suche nach kompatiblen Konfigurationen;
  • geeignet für viele Inferenzaufgaben.

Einschränkungen:

  • geringere Dichte im Vergleich zu SXM-Plattformen;
  • weniger Möglichkeiten für schnelle Verbindungen zwischen GPUs;
  • nicht immer die beste Option für das Training großer Modelle;
  • Kühlung muss sorgfältig geprüft werden, besonders bei passiven Serverkarten.

SXM

SXM ist keine „gewöhnliche Karte“, die in jeden Server eingebaut werden kann. Es handelt sich um einen Formfaktor für dichte GPU-Systeme, in denen mehrere Beschleuniger als eine Plattform arbeiten.

Vorteile von SXM:

  • hohe GPU-Dichte;
  • bessere Verbindung zwischen den Karten;
  • geeignet für 4/8-GPU-Systeme;
  • stark bei Training und schweren LLM-Workloads.

Einschränkungen:

  • ein spezialisiertes Chassis ist erforderlich;
  • Upgrades sind schwieriger;
  • höhere Anforderungen an die Stromversorgung;
  • höhere Anforderungen an die Kühlung;
  • in der Regel höhere Einstiegskosten.

NVLink und NVSwitch

NVLink beschleunigt den Datenaustausch zwischen GPUs. NVSwitch hilft beim Aufbau dichter Systeme, in denen mehrere Karten innerhalb eines Servers schnell Daten austauschen müssen. In DGX H100/H200 werden zum Beispiel acht GPUs eingesetzt: Die H100-Version bietet 640 GB gemeinsamen GPU-Speicher, die H200-Version 1128 GB. Außerdem werden NVSwitch und eine leistungsstarke Serverumgebung genannt. Mehr dazu steht in der NVIDIA-Dokumentation.

Das ist wichtig für:

  • Training großer Modelle;
  • Verteilung eines Modells auf mehrere GPUs;
  • hohe Auslastung eines Servers;
  • Aufgaben, bei denen Latenzen zwischen GPUs die Gesamtgeschwindigkeit beeinflussen.

Für kleine Inferenz kann NVLink nicht der wichtigste Faktor sein. Wenn das Modell jedoch nicht auf eine Karte passt oder die Last auf mehrere GPUs ausgelegt ist, ist Sparen beim Interconnect riskant.

Stromversorgung und Kühlung

Vor dem Kauf eines GPU-Servers sollte nicht nur geprüft werden, ob die Karte „hineinpasst“, sondern der gesamte Betriebspfad.

Minimale Checkliste:

  1. Unterstützt der Server den benötigten GPU-Formfaktor?
  2. Reichen die Netzteile für Spitzenlasten aus?
  3. Ist das Chassis für passive Server-GPUs ausgelegt?
  4. Ist der Luftstrom ausreichend?
  5. Unterstützt das BIOS die benötigten Karten?
  6. Sind die erforderlichen Riser, Kabel und Bridges vorhanden?
  7. Werden die benötigten Treiberversionen unterstützt?
  8. Reicht der Platz im Rack aus?
  9. Gibt es eine Stromreserve im Serverraum?
  10. Wie schnell kann eine Karte bei einem Ausfall ersetzt werden?

H100 und H200 in schweren Konfigurationen sind längst nicht mehr einfach „eine Grafikkarte kaufen“. Es ist die Planung einer GPU-Plattform.

TCO: Warum die schnellste GPU nicht immer die wirtschaftlichste ist

In einer LLM-Infrastruktur ist der Preis der Karte nur ein Teil der Kosten. Manchmal ist eine teurere GPU günstiger, weil sie mehr Anfragen verarbeitet. Manchmal ist es umgekehrt: Eine teure Karte steht ungenutzt herum, obwohl das Projekt problemlos auf einer A100 laufen könnte.

Was in die Gesamtbetriebskosten einfließt

Bei der Berechnung sollte berücksichtigt werden:

  • Kosten der GPU;
  • Kosten des Servers;
  • Prozessoren und Systemspeicher;
  • Netzwerk;
  • Storage;
  • Rack;
  • Stromversorgung;
  • Kühlung;
  • Garantie;
  • Service;
  • Ausfallzeit;
  • Arbeitszeit der Engineers;
  • erwartete Nutzungsdauer.

Wenn nur der Preis der GPU betrachtet wird, ist die Wahl fast immer verzerrt. Für das Geschäft ist nicht der Kartenpreis an sich entscheidend, sondern die Kosten eines nützlichen Ergebnisses.

Refurbished und Verfügbarkeit

Die A100 ist gerade in Refurbished-Szenarien oft interessant. Für einen Piloten, eine interne Plattform oder moderate Inferenz kann das sinnvoller sein, als sofort H100 oder H200 zu kaufen.

Dabei sollte geprüft werden:

  • Zustand der Hardware;
  • Garantie;
  • Kompatibilität mit dem Server;
  • Herkunft der Karte;
  • Austauschbedingungen;
  • Reputation des Anbieters.

Für manche Projekte kann eine Refurbished-A100 pro Budgeteinheit mehr Nutzen bringen als eine neue H100. Das gilt besonders, wenn das Team die Last noch nicht sicher kennt und nicht sofort eine teure Infrastruktur aufbauen möchte.

Kosten von Ausfallzeiten

Eine günstige Konfiguration wird teuer, wenn sie häufig ausfällt oder lange repariert wird. Für einen LLM-Service in Produktion sind wichtig:

  • Ersatzkomponenten;
  • Garantie;
  • klarer SLA;
  • Monitoring;
  • schneller Austausch der GPU;
  • vorhersehbare Lieferung;
  • Unterstützung durch den Anbieter.

Wenn der Service Geld verdient oder für interne Prozesse kritisch ist, kann Ausfallzeit teurer sein als der Unterschied zwischen A100 und H100.

GPU-Dichte pro Rack-Unit

H100 und H200 können wirtschaftlicher sein als A100, wenn sie mehr Anfragen bei gleicher Rackfläche, Stromversorgung und Kühlung bedienen. Das ist besonders wichtig in Rechenzentren, in denen begrenzt sind:

  • Rackfläche;
  • verfügbare Leistung;
  • thermisches Budget;
  • Anzahl der Server;
  • Netzwerkports.

Hohe Dichte rechnet sich jedoch nur bei hoher Auslastung. Wenn eine GPU nur wenige Stunden pro Tag arbeitet, kann eine teure Konfiguration wenig Sinn ergeben.

Wie man ohne Raten entscheidet

Eine gute GPU-Auswahl beginnt nicht mit einer Tabelle technischer Daten, sondern mit der Beschreibung der Aufgabe.

Die Reihenfolge kann so aussehen:

  1. Szenario bestimmen: Training, Feinabstimmung, Inferenz, RAG, Batch-Verarbeitung, geteilte Plattform.
  2. Modell bewerten: Größe, Gewichtsformat, Kontextlänge.
  3. Berechnen, wie viel Speicher für Gewichte, Cache und Batch benötigt wird.
  4. Prüfen, ob die Aufgabe in eine GPU passt.
  5. Wenn nicht, Quantisierung, Modellaufteilung oder Wechsel zu einer GPU mit mehr Speicher bewerten.
  6. Klären, was wichtiger ist: Antwortlatenz oder Anzahl der Anfragen pro Zeiteinheit.
  7. Prüfen, ob eine Kopplung mehrerer GPUs nötig ist.
  8. Formfaktor wählen: PCIe, SXM, NVL.
  9. Serverkompatibilität prüfen.
  10. Gesamtbetriebskosten berechnen.
  11. Das reale Modell auf einer ähnlichen Konfiguration testen.

An diesem Punkt ist es sinnvoll, nicht nur GPUs zu betrachten, sondern auch Server mit NVIDIA-GPU, weil die endgültige Leistung von der gesamten Plattform abhängt.

Häufige Fehler bei der GPU-Auswahl für LLMs

Die häufigsten Probleme entstehen nicht durch eine schlechte Karte, sondern durch eine falsche Wahl für die Aufgabe.

Diese Fehler sollten vermieden werden:

  • nur auf die Spitzenleistung schauen;
  • Videospeicher nicht berechnen;
  • langen Kontext vergessen;
  • Attention-Cache nicht berücksichtigen;
  • annehmen, dass jede H100 gleich ist;
  • PCIe, SXM und NVL verwechseln;
  • eine GPU ohne Prüfung der Serverkompatibilität kaufen;
  • Stromversorgung und Kühlung unterschätzen;
  • den Kartenpreis berechnen, aber Ausfallzeiten ignorieren;
  • H200 wählen, obwohl A100 ausreicht;
  • A100 wählen, obwohl das Projekt bereits FP8 und hohe Dichte benötigt;
  • das reale Modell vor dem Kauf nicht testen.

Ein eigener Punkt ist die „Reserve für die Zukunft“. Sie ist nützlich, wenn ein verständliches Lastwachstum absehbar ist. Wenn das Projekt jedoch nicht weiß, welches Modell eingesetzt wird und wie viele Anfragen kommen werden, kann eine zu teure GPU keine Investition, sondern eingefrorenes Budget sein.

Was am Ende wählen?

A100, H100 und H200 ersetzen einander nicht vollständig. Jede Karte hat ihre eigene rationale Zone.

A100 — eine gute Wahl für Pilotprojekte, Feinabstimmung, moderate Inferenz und budgetbewusste LLM-Projekte. Sie ist besonders interessant, wenn Verfügbarkeit, Plattformreife und eine niedrigere Einstiegsschwelle wichtig sind.

H100 — die Wahl für Projekte, die hohe Geschwindigkeit, einen modernen Stack, FP8 und eine ernsthafte konstante Last benötigen. Sie eignet sich gut für Training, Feinabstimmung und leistungsstarke Inferenz, wenn die Serverplattform ihre Möglichkeiten ausschöpfen kann.

H200 — eine Option für Szenarien, in denen Speicher zum wichtigsten Engpass wird: große Modelle, langer Kontext, RAG, große Batches und dichte Inferenz. Ihr Vorteil ist besonders dort spürbar, wo 80–94 GB bereits zu wenig sind und 141 GB mehr architektonische Freiheit bieten.

Die beste GPU für LLMs ist nicht die neueste und nicht die teuerste. Die beste ist diejenige, die Ihr Modell in den Speicher bringt, die nötige Geschwindigkeit liefert, mit dem Server kompatibel ist und sich in Ihrem Szenario rechnet.


Kommentare
(0)
Keine Kommentare
Kommentar schreiben
Ich stimme der Verarbeitung meiner personenbezogenen Daten zu

NÄCHSTER ARTIKEL

Erfahren Sie als Erster von neuen Beiträgen und verdienen Sie 50 €.