Für Tests und kleinere Modelle reichen in der Regel 16–24 GB Grafikspeicher aus. Für produktive AI-Services und RAG-Systeme sollte man meist eher 48 GB einplanen. Für große Modelle, lange Kontexte, hohe Last und den produktiven Betrieb sind 80–96 GB oder ein Server mit mehreren GPUs sinnvoller. Eine Grafikkarte nur nach der Speicherkapazität auszuwählen, reicht jedoch nicht aus: Entscheidend sind Modellgröße, Speicherformat, Kontextlänge, Anzahl gleichzeitiger Anfragen, Attention-Cache, Arbeitsspeicher, NVMe und ein Puffer für das Wachstum des Projekts.
Grafikspeicher ist zu einem der wichtigsten Parameter bei der Auswahl einer GPU für neuronale Netze geworden. Genau dort werden das Modell und die Daten geladen, mit denen die Grafikkarte gerade arbeitet. Wenn der Speicher nicht ausreicht, startet das Modell möglicherweise gar nicht, läuft instabil oder verliert deutlich an Geschwindigkeit.
Die Frage „Wie viel Grafikspeicher braucht man?“ ist jedoch komplexer, als sie auf den ersten Blick wirkt. Dieselbe Karte mit 24 GB kann für einen Prototyp völlig ausreichend sein, aber für einen Service zu schwach, bei dem Dutzende Nutzer gleichzeitig lange Anfragen senden. 80 GB wiederum können für einen einfachen Test überdimensioniert sein, aber für ein großes Modell mit langem Kontext notwendig werden.
Bei der Auswahl sollte man nicht auf einen einzelnen Parameter schauen, sondern auf das gesamte Szenario:
- welches Modell gestartet werden soll;
- ob nur Antworten generiert werden oder auch Fine-Tuning geplant ist;
- wie viele Nutzer gleichzeitig arbeiten werden;
- wie lange die zu verarbeitenden Dokumente sind;
- ob Batch-Verarbeitung von Anfragen erforderlich ist;
- ob sich das System in den nächsten 6–12 Monaten weiterentwickeln wird;
- ob eine Skalierung durch zusätzliche GPUs möglich ist;
- ob der Server genug Arbeitsspeicher, CPU-Leistung und schnelle NVMe-Laufwerke hat.
Wenn die Aufgabe bereits klar ist, kann man sich direkt passende NVIDIA-GPUs für neuronale Netze ansehen. Zuvor ist es jedoch hilfreich zu verstehen, wo das „Modell einfach starten“ endet und wo eine vollwertige Serverlast beginnt.
Was ist Grafikspeicher und warum ist er für neuronale Netze wichtig?
Grafikspeicher ist der Speicher direkt auf der Grafikkarte. Er ist schneller als normaler Arbeitsspeicher und befindet sich nahe an den Recheneinheiten der GPU. Für neuronale Netze ist das entscheidend: Das Modell führt sehr viele Operationen aus, und die Daten müssen schnell zur GPU gelangen, ohne dass diese ständig auf Prozessor oder Laufwerk warten muss.
Im Grafikspeicher liegen in der Regel:
- die Modellgewichte;
- die Eingabe des Nutzers;
- Zwischenergebnisse der Berechnungen;
- der Attention-Cache;
- ein Teil der Daten für parallele Verarbeitung;
- Service-Puffer der Softwareumgebung;
- Daten, die für Training oder Fine-Tuning benötigt werden.
Wichtig ist: Grafikspeicher wird nicht nur für das Modell selbst benötigt. Auch wenn ein Modell in 24 GB „hineinpasst“, heißt das noch nicht, dass es in einem realen Service stabil arbeitet. Es braucht Platz für Kontext, Cache, mehrere Anfragen, Systemoperationen und einen Puffer für unerwartete Lastspitzen.
Ein weiterer häufiger Fehler ist die Verwechslung von Grafikspeicher und Arbeitsspeicher des Servers. Wenn ein Server 512 GB RAM hat, bedeutet das nicht, dass das Modell diesen Speicher wie 512 GB VRAM nutzen kann. Ein Teil der Daten kann zwar in RAM oder auf das Laufwerk ausgelagert werden, das ist aber fast immer langsamer. Für den stabilen Betrieb neuronaler Netze ist es wichtiger, dass die Hauptlast in den GPU-Speicher passt.
Warum man eine GPU nicht nur nach der Speicherkapazität auswählen sollte
Die Menge an Grafikspeicher ist ein wichtiger Parameter, aber nicht der einzige. Zwei Karten mit denselben 48 GB können sich deutlich in Geschwindigkeit, Generation, Energieverbrauch, Unterstützung moderner Rechenformate und Verhalten im Server unterscheiden.
Bei der Auswahl einer GPU für neuronale Netze sollte man berücksichtigen:
- die Architektur-Generation;
- die Speicherbandbreite;
- den Speichertyp;
- die Unterstützung der benötigten Rechenformate;
- den Energieverbrauch;
- die Kühlung;
- den Formfaktor;
- die Kompatibilität mit dem Server;
- die Möglichkeit, mehrere Karten zu installieren;
- die Austauschgeschwindigkeit zwischen GPUs.
Für einen einfachen Modellstart ist vor allem wichtig, dass das Modell in den Speicher passt. Für einen Service mit vielen Nutzern werden bereits Latenz, Durchsatz und Stabilität wichtig. Für Fine-Tuning braucht man nicht nur Gigabyte, sondern auch Rechenleistung. Für einen Server, der rund um die Uhr arbeitet, sind Stromversorgung, Kühlung und Gehäusekompatibilität kritisch.
Deshalb sind 16, 24, 48, 80 und 96 GB keine „Leiter der Leistung“, sondern Orientierungspunkte für unterschiedliche Aufgabenklassen.
Was genau Grafikspeicher belegt
Der Verbrauch von Grafikspeicher setzt sich aus mehreren Teilen zusammen. Wenn man nur die Modellgröße berücksichtigt, fällt die Berechnung fast immer zu optimistisch aus.
Modellgröße
Je mehr Parameter ein Modell hat, desto mehr Speicher wird für seine Speicherung benötigt. Ein kleines Modell kann auf einer einzelnen Karte mit 16–24 GB laufen, während ein großes Sprachmodell bereits 48, 80, 96 GB oder mehrere GPUs benötigt.
Man darf jedoch nicht nur auf die Anzahl der Parameter schauen. Der tatsächliche Verbrauch hängt auch davon ab, wie das Modell gespeichert wird:
- in einem „schwereren“ Format;
- in einem kompakteren Format;
- mit Quantisierung;
- mit zusätzlichen Optimierungen;
- unter Berücksichtigung von Kontextlänge und Anzahl der Anfragen.
Quantisierung ist eine Methode, ein Modell kompakter zu speichern. Vereinfacht gesagt belegt das Modell weniger Speicher, weil die Zahlenwerte im Inneren mit geringerer Genauigkeit gespeichert werden. Das hilft, größere Modelle auf weniger VRAM auszuführen, kann aber manchmal die Antwortqualität, Stabilität oder Geschwindigkeit beeinflussen.
Kontextlänge
Kontext ist die Informationsmenge, die ein Modell bei der Antwort berücksichtigt. Dazu gehören die Frage des Nutzers, der Dialogverlauf, Systemanweisungen, gefundene Dokumente und bereits generierter Text.
Langer Kontext ist besonders wichtig für:
- Chatbots;
- Dokumentenanalyse;
- juristische und technische Wissensdatenbanken;
- Support-Assistenten;
- Suche in Unternehmensdokumentation;
- RAG-Systeme.
RAG ist ein Ansatz, bei dem das Modell nicht nur auf Grundlage seines eigenen Wissens antwortet, sondern auch unter Berücksichtigung gefundener Fragmente aus einer Dokumentenbasis. Die Wissensbasis selbst liegt normalerweise nicht vollständig im Grafikspeicher, aber die gefundenen Fragmente werden der Anfrage hinzugefügt. Deshalb steigt der Speicherverbrauch nicht wegen der Datenbank an sich, sondern durch den größeren Kontext.
Ein Modell kann zum Beispiel kurze Fragen auf einer einzelnen Karte problemlos beantworten, aber an Speichergrenzen stoßen, wenn zu jeder Anfrage mehrere Seiten Dokumentation, Gesprächshistorie und eine lange Anweisung hinzugefügt werden.
Anzahl gleichzeitiger Anfragen
Ein Nutzer und hundert Nutzer sind unterschiedliche Betriebsmodi. Wenn ein Modell mehrere Anfragen gleichzeitig bedient, wird Speicher nicht nur für die Modellgewichte, sondern auch für parallele Berechnungen benötigt.
Den Verbrauch beeinflussen:
- wie viele Anfragen gleichzeitig verarbeitet werden;
- wie viel Text als Eingabe kommt;
- wie viel Text das Modell generieren soll;
- ob Anfragen zu Batches zusammengefasst werden;
- welcher Speicherpuffer für Lastspitzen eingeplant ist.
Batch-Verarbeitung von Anfragen hilft, die GPU effizienter auszulasten, erhöht aber den Grafikspeicherverbrauch. Je mehr Anfragen gleichzeitig bearbeitet werden, desto mehr Speicher wird für Zwischendaten benötigt.
Attention-Cache
Während der Textgenerierung speichert das Modell Zwischendaten, damit es den gesamten vorherigen Text nicht bei jedem Schritt neu berechnen muss. Diese Daten werden häufig als Attention-Cache bezeichnet.
Er ist für Sprachmodelle besonders wichtig, weil er zusammen mit folgenden Faktoren wächst:
- der Kontextlänge;
- der Anzahl gleichzeitiger Anfragen;
- der Batch-Größe;
- der Antwortlänge;
- der Nutzerzahl.
Wenn nicht genug Platz für den Cache vorhanden ist, kann der Service langsamer werden. In der vLLM-Dokumentation wird beschrieben, dass Anfragen bei zu wenig Cache-Speicher verdrängt und neu berechnet werden können, während eine Verringerung der Anzahl gleichzeitiger Anfragen oder der Batch-Größe den Speicherverbrauch senkt.
Wie viel Grafikspeicher braucht man: Auswahlmatrix
| Grafikspeicher | Wofür geeignet | Wo die Grenzen beginnen |
|---|---|---|
| 16 GB | Tests, Lernen, kleine Modelle, einfacher Start, grundlegende Bildverarbeitung | Für langen Kontext, RAG, Fine-Tuning und mehrere Nutzer wird der Speicher schnell knapp |
| 24 GB | Prototypen von AI-Services, kleine und einige mittlere Modelle, Test-RAG, Fine-Tuning-Experimente | Wenig Reserve für Modellwachstum, langen Kontext und stabilen Produktivbetrieb |
| 48 GB | Arbeitsminimum für viele Unternehmensaufgaben: Inferenz, RAG, Dokumentenverarbeitung, Fine-Tuning kleiner und mittlerer Modelle | Für große Modelle, hohe Last und langen Kontext können mehrere GPUs erforderlich sein |
| 80 GB | Große Modelle, langer Kontext, Produktionsinferenz, Batch-Verarbeitung, ernsthaftes Fine-Tuning | Für das Training großer Modelle von Grund auf und sehr hohe Last ist eine Multi-GPU-Konfiguration nötig |
| 96 GB | Maximaler Puffer auf einer professionellen GPU, schwere Inferenz, multimodale Aufgaben, große Modelle | Ersetzt keinen Cluster beim Training großer Modelle von Grund auf; CPU, RAM, NVMe, Netzwerk und Kühlung bleiben wichtig |
Diese Tabelle bedeutet nicht, dass die Grenzen immer starr sind. Optimierungen können es ermöglichen, ein Modell auf weniger Speicher auszuführen. Für einen produktiven Service sollte man jedoch nicht den „Mindestwert, auf dem das Modell einmal startet“ berechnen, sondern eine Konfiguration, die reale Anfragen, langen Kontext, Modellupdates und Lastwachstum aushält.
16 GB: für Tests, Lernen und kleine Modelle
Bildquelle: NVIDIA T4 — ein Beispiel für eine kompakte GPU mit 16 GB für Inferenz, Tests und kleinere AI-Workloads.
16 GB Grafikspeicher sind der Einstiegspunkt für die Arbeit mit neuronalen Netzen. Dieser Umfang eignet sich, wenn man Tools kennenlernen, kleinere Modelle starten, Ideen testen und mit Aufgaben ohne hohe Last arbeiten möchte.
Mit 16 GB kann man folgende Szenarien in Betracht ziehen:
- Lernexperimente;
- kleine Sprachmodelle;
- einen Teil der Computer-Vision-Aufgaben;
- einfache Textgenerierung;
- Tests lokaler AI-Tools;
- Prüfung einer Pipeline vor der Migration auf einen leistungsstärkeren Server.
Der Puffer ist hier jedoch klein. Grenzen zeigen sich schnell, wenn langer Kontext, mehrere Nutzer oder Fine-Tuning hinzukommen. Für ein ernsthaftes RAG-System sind 16 GB häufig knapp: Selbst wenn das Modell startet, kann der Speicher durch Cache, Dokumente und parallele Anfragen ausgehen.
16 GB sollte man wählen, wenn die Aufgabe experimentell ist und klar ist, dass die Konfiguration bei Projektwachstum ersetzt werden muss.
24 GB: komfortabler für Prototypen, aber ohne großen Puffer
Bildquelle: NVIDIA A10 — ein Beispiel für eine GPU mit 24 GB für Prototypen, AI-Tools und gemischte Serverlasten.
24 GB sind eine beliebte Größe für Prototypen. Sie bieten mehr Freiheit als 16 GB und ermöglichen die Arbeit mit einem breiteren Modellspektrum. Diese Option eignet sich für Teams, die eine Hypothese prüfen, eine Demo erstellen, einen internen Assistenten testen oder einen kleinen Service starten.
24 GB können geeignet sein für:
- kleine und einige mittlere Modelle;
- Test-RAG;
- einen lokalen Assistenten für ein Team;
- Experimente mit kompaktem Fine-Tuning;
- Verarbeitung kleiner Dokumentensammlungen;
- einen ersten API-Stand.
24 GB haben jedoch eine klare Einschränkung: wenig Reserve. Heute passt das Modell, morgen kommen lange Dokumente, mehr Nutzer, ein anderes Modellformat oder die Notwendigkeit hinzu, mehrere Aufgaben gleichzeitig zu halten.
Besonders vorsichtig sollte man mit 24 GB in drei Fällen sein:
- Es ist Produktion geplant, nicht nur ein Test.
- Langer Kontext ist erforderlich.
- Ein Wachstum der Nutzerzahl wird erwartet.
In solchen Szenarien können 24 GB zu einer Zwischenlösung werden, die schnell ersetzt werden muss.
48 GB: Arbeitsminimum für viele AI-Aufgaben
Bildquelle: NVIDIA L40S — ein Beispiel für eine Server-GPU mit 48 GB für produktive AI-Aufgaben, RAG, Inferenz und Fine-Tuning.
48 GB sind eine praktischere Größe für Unternehmens-AI-Projekte. Dieser Umfang sollte oft als Arbeitsminimum betrachtet werden, wenn die Aufgabe über persönliche Experimente hinausgeht.
Mit 48 GB lassen sich bereits robustere Szenarien aufbauen:
- Inferenz von Modellen mittlerer Klasse;
- RAG über Unternehmensdokumente;
- Verarbeitung langer Anfragen;
- Fine-Tuning kleiner und mittlerer Modelle;
- Prototypen mit Perspektive auf den Produktivbetrieb;
- Services für ein Team oder eine interne Abteilung;
- Verarbeitung von Bildern, Video und Dokumenten.
Zum Beispiel kann NVIDIA L40S 48 GB für produktive AI-Workloads in Betracht gezogen werden, bei denen nicht nur die Gigabyte Speicher wichtig sind, sondern auch Serverausführung, Leistung und Reserve für unterschiedliche Aufgabentypen.
48 GB machen eine einzelne Karte nicht zu einer universellen Lösung für beliebige Modelle, bieten aber deutlich mehr Spielraum. Hier ist es bereits einfacher, Reserve für den Attention-Cache, längeren Kontext und mehrere parallele Anfragen zu halten.
Grenzen beginnen dort, wo große Sprachmodelle, hohe parallele Last oder Anforderungen an langen Kontext auftreten. In solchen Fällen kann eine einzelne Karte mit 48 GB zu wenig sein, insbesondere wenn der Service stabil für viele Nutzer arbeiten soll.
80 GB: große Modelle, langer Kontext und Produktion
Bildquelle: NVIDIA H100 — ein Beispiel für eine GPU der 80-GB-Klasse für schwere AI-Workloads, große Modelle und Produktionsinferenz.
80 GB sind eine Klasse für schwere AI-Workloads. Diese Speichermenge wird gebraucht, wenn das Modell größer ist, der Kontext länger wird, mehr Nutzer arbeiten und der Service stabil laufen muss.
80 GB sollte man in Betracht ziehen, wenn man:
- große Sprachmodelle starten muss;
- lange Dialoge bedienen muss;
- mit großen Dokumenten arbeitet;
- RAG für eine Unternehmenswissensbasis umsetzt;
- viele Anfragen verarbeitet;
- Modelle fine-tuned;
- Reserve für Lastwachstum halten muss.
Für solche Aufgaben eignet sich eine Klasse von Beschleunigern wie NVIDIA H100 80 GB. Aber selbst 80 GB bedeuten nicht, dass man den Rest des Systems ignorieren kann. Wenn Daten langsam vom Laufwerk gelesen werden, Arbeitsspeicher fehlt oder die CPU Anfragen nicht schnell genug vorbereitet, bleibt die Grafikkarte ungenutzt.
80 GB sind besonders nützlich, wenn es nicht nur darum geht, ein Modell zu „starten“, sondern vorhersehbaren Betrieb sicherzustellen:
- mit mehreren Nutzern;
- mit langem Kontext;
- mit einer Warteschlange von Anfragen;
- mit kontrollierter Latenz;
- mit Reserve für Modellupdates.
96 GB: maximaler Puffer auf einer professionellen GPU
Bildquelle: RTX PRO 6000 Blackwell Server Edition — ein Beispiel für eine professionelle GPU mit 96 GB Grafikspeicher für schwere AI-Szenarien.
96 GB Grafikspeicher sind eine Option für Aufgaben, bei denen der maximale Puffer auf einer einzelnen Karte wichtig ist. Das ist nützlich für schwere Inferenz, große Modelle, multimodale Szenarien, Arbeit mit großen Datenmengen und Unternehmens-AI-Services, bei denen 80 GB bereits knapp werden oder man das Risiko eines Speicherlimits verringern möchte.
Ein solcher Umfang kann nötig sein, wenn:
- das Modell groß ist und schlecht in weniger Speicher passt;
- der Kontext lang ist;
- viele Anfragen eingehen;
- mehrere Aufgabentypen auf einem Server laufen;
- ein Modellwachstum geplant ist;
- die Abhängigkeit von der Verteilung des Modells auf mehrere GPUs reduziert werden soll.
Die offizielle Seite der NVIDIA RTX PRO 6000 Blackwell Server Edition nennt 96 GB GDDR7-Speicher mit ECC und positioniert die Karte für große AI- und Visualisierungsaufgaben.
96 GB sind jedoch keine magische Grenze. Für das Training großer Modelle von Grund auf kann eine einzelne Karte trotzdem zu wenig sein. In solchen Aufgaben ist nicht nur die Menge an VRAM wichtig, sondern die gesamte Architektur: mehrere GPUs, Verbindung zwischen ihnen, RAM, NVMe, Netzwerk, Stromversorgung, Kühlung und Software-Stack.
Wie viel Speicher braucht man für verschiedene Szenarien?
Start eines fertigen Modells
Der normale Start eines fertigen Modells benötigt weniger Speicher als Training. Der Hauptverbrauch entfällt auf Modellgewichte, Kontext, Attention-Cache und Service-Puffer.
Die Orientierung ist:
- 16 GB — kleine Modelle und Tests;
- 24 GB — komfortablere Prototypen;
- 48 GB — produktive Services und Modelle mittlerer Klasse;
- 80–96 GB — große Modelle, langer Kontext, hohe Last.
Wichtig ist, einen lokalen Test nicht mit einem Service zu verwechseln. Ein Modell für eine einzelne Anfrage zu starten, ist das eine. Nutzer über eine API zu bedienen, Dialoghistorie zu halten und lange Dokumente zu verarbeiten, ist etwas völlig anderes.
RAG und Wissensbasis
Ein RAG-System besteht nicht nur aus dem Modell. Meist gibt es daneben eine Dokumentenbasis, Suche, Aufteilung von Texten in Fragmente, Indizes, API und Anwendungslogik. Nicht alles davon liegt im Grafikspeicher, aber gefundene Dokumentfragmente werden der Anfrage an das Modell hinzugefügt.
Deshalb hängt der VRAM-Verbrauch von mehreren Faktoren ab:
- wie viele Fragmente in den Kontext aufgenommen werden;
- wie lang diese Fragmente sind;
- wie viele Nutzer auf das System zugreifen;
- wie lange der Dialogverlauf gespeichert wird;
- wie groß der Attention-Cache sein muss;
- welcher Speicherpuffer für Lastspitzen vorgesehen ist.
Für ein kleines Test-RAG können 24 GB ausreichen. Für ein produktives System über Unternehmensdokumente ist es sinnvoller, 48 GB und mehr einzuplanen. Wenn viele Nutzer vorhanden sind, die Dokumente lang sind und das Modell groß ist, braucht man bereits die Klasse 80–96 GB oder mehrere GPUs.
Fine-Tuning
Fine-Tuning verbraucht mehr Speicher als ein einfacher Modellstart. Neben den Modellgewichten werden Daten zur Aktualisierung der Parameter, Zwischenwerte, Optimizer und Service-Strukturen benötigt.
Vereinfacht kann man sich so orientieren:
- 24 GB — Experimente mit kleinen Modellen und sparsamen Methoden;
- 48 GB — ein praktischeres Minimum für Arbeitsaufgaben;
- 80–96 GB — ernsthaftes Fine-Tuning, große Modelle, Stabilitätsreserve.
Man sollte die Aufgabe nicht als „welches maximale Modell lässt sich in den Speicher quetschen“ formulieren. Für Fine-Tuning ist wichtiger, dass der Prozess nicht abstürzt, nicht zu viele Kompromisse erfordert und Reserve für Daten lässt.
Training von Grund auf
Training von Grund auf ist das schwerste Szenario. Für große Modelle ist eine einzelne Grafikkarte fast nie eine vollwertige Lösung. Hier braucht man mehrere GPUs, schnellen Austausch zwischen ihnen, viel RAM, schnelle NVMe-Laufwerke und eine durchdachte Speicherung der Datensätze.
In diesem Fall wird die Frage „16, 24, 48, 80 oder 96 GB“ zu eng. Man muss den gesamten Server oder Cluster bewerten:
- wie viele GPUs benötigt werden;
- wie sie miteinander verbunden sind;
- ob genug Arbeitsspeicher vorhanden ist;
- ob das Storage den Datenstrom bewältigt;
- wie das Netzwerk organisiert ist;
- ob sich die Konfiguration skalieren lässt.
Wenn es um das Training großer Modelle von Grund auf geht, ist der Speicher einer einzelnen GPU wichtig, aber er entscheidet nicht allein.
Batch-Verarbeitung von Anfragen
Batch-Verarbeitung bedeutet, dass das System mehrere Anfragen zusammenfasst, um die GPU effizienter auszulasten. Das ist nützlich für Services mit vielen Nutzern oder Aufgaben.
Vorteile:
- höherer Durchsatz;
- bessere GPU-Auslastung;
- effizientere Verarbeitung der Warteschlange.
Nachteile:
- höherer Grafikspeicherverbrauch;
- schwierigeres Latenzmanagement;
- höhere Anforderungen an den Attention-Cache;
- Reserve für Lastspitzen erforderlich.
Für ein einfaches internes Tool kann man mit 24–48 GB beginnen. Für einen Service mit vielen Anfragen sollte man im Voraus 80 GB, 96 GB oder Multi-GPU einplanen.
Was den Grafikspeicherverbrauch beeinflusst
| Faktor | Wie er den Speicher beeinflusst | Wo besonders wichtig |
|---|---|---|
| Modellgröße | Je größer das Modell, desto mehr Speicher wird für die Gewichte benötigt | Alle Szenarien |
| Kontextlänge | Erhöht den Verbrauch des Attention-Caches | Chatbots, RAG, Dokumentenanalyse |
| Anzahl der Anfragen | Erfordert mehr Speicher für parallele Verarbeitung | API, interne Services, SaaS |
| Fine-Tuning | Benötigt mehr Speicher als ein einfacher Start | Anpassung des Modells an eigene Daten |
| Quantisierung | Kann den Speicherverbrauch reduzieren | Prototypen und Inferenz |
| Batch-Verarbeitung | Erhöht den Durchsatz, benötigt aber mehr Speicher | Services mit Last |
Diese Tabelle ist nützlich, weil sie zeigt: VRAM wird nicht nur aus einem Grund verbraucht. Manchmal ist das Modell klein, aber der Kontext lang. Manchmal ist der Kontext kurz, aber die Nutzerzahl hoch. Manchmal passt das Modell, aber Fine-Tuning läuft bereits nicht mehr. Deshalb muss man bei der Auswahl das gesamte Szenario berechnen.
Wann eine einzelne Grafikkarte nicht mehr ausreicht
Eine einzelne GPU reicht nicht nur dann nicht mehr aus, wenn das Modell physisch nicht in den Speicher passt. Es gibt weitere Gründe, auf mehrere Karten umzusteigen:
- mehr Nutzer müssen bedient werden;
- die Latenz muss reduziert werden;
- das Modell ist zu groß für eine einzelne GPU;
- langer Kontext wird benötigt;
- Training oder Fine-Tuning ist geplant;
- verschiedene Aufgaben sollen auf Karten verteilt werden;
- Reserve für Wachstum wird benötigt.
Dabei ist wichtig: 4 Karten mit je 24 GB sind nicht dasselbe wie eine Karte mit 96 GB.
Jede GPU hat ihren eigenen Grafikspeicher. In manchen Aufgaben kann das Modell auf mehrere Karten verteilt werden, aber das erfordert Unterstützung durch den Software-Stack. Es entstehen zusätzliche Kosten für den Austausch zwischen GPUs, Synchronisierung und Datenverteilung.
Manchmal sind mehrere Karten mit kleinerer Speicherkapazität vorteilhafter. Zum Beispiel, wenn mehrere unabhängige Aufgaben parallel bedient werden müssen. Wenn das Modell aber vollständig mit großem Kontext arbeiten soll, kann großer Speicher auf einer einzelnen Karte bequemer und stabiler sein.
Wo Einschränkungen bei CPU, RAM und NVMe beginnen
Grafikspeicher wird oft als wichtigste Ressource diskutiert, aber ein Server für neuronale Netze besteht nicht nur aus einer GPU. Zum Engpass kann alles werden: Prozessor, Arbeitsspeicher, Laufwerke, Netzwerk, Stromversorgung oder Kühlung.
Arbeitsspeicher
RAM wird benötigt für:
- das Laden von Modellen und Daten;
- die Vorbereitung von Datensätzen;
- den Betrieb der Anwendung;
- Warteschlangen von Anfragen;
- Caches;
- Indizes;
- Datenbanken;
- Dokumentenverarbeitung.
Für ein RAG-System ist normaler Arbeitsspeicher besonders wichtig. Neben dem Modell können eine Vektordatenbank, Dateiverarbeiter, API, Aufgabenwarteschlange und Logging-System arbeiten. Wenn RAM knapp ist, greift der Server häufiger auf das Laufwerk zu, was die Geschwindigkeit verschlechtert.
Prozessor
Die CPU kann bei der Datenvorbereitung zum Engpass werden. Sie ist an Tokenisierung, Dokumentenverarbeitung, API-Betrieb, Routing von Anfragen und Bedienung externer Services beteiligt.
Wenn der Prozessor schwach ist, kann die GPU auf Daten warten. Am Ende wird eine teure Grafikkarte nicht vollständig ausgelastet.
NVMe
Schnelle NVMe-Laufwerke werden benötigt für die Speicherung von:
- Modellen;
- Datensätzen;
- Indizes;
- temporären Dateien;
- Logs;
- Zwischenergebnissen.
Langsames Storage stört besonders beim Training, bei der Verarbeitung großer Datenmengen und bei der Arbeit mit Dokumenten. Formal kann ein Modell in den Grafikspeicher passen, aber die gesamte Pipeline wird wegen langsamer Datenzugriffe ausgebremst.
Netzwerk und Verbindung zwischen GPUs
Für eine einzelne Karte ist das nicht der wichtigste Faktor. Wenn aber mehrere GPUs oder mehrere Knoten im Einsatz sind, wird die Austauschgeschwindigkeit kritisch. Je größer Modell und Last, desto wichtiger ist, wie GPUs Daten untereinander übertragen.
Typische Fehler bei der Auswahl von Grafikspeicher
GPU nur nach Speicherkapazität auswählen
Viel VRAM garantiert keine gute Leistung. Man muss die Kartengeneration, Speichergeschwindigkeit, Kühlung, Stromversorgung, den Formfaktor und die Serverkompatibilität berücksichtigen.
Nur den Modellstart berechnen
Ein Modell kann starten, aber schlecht arbeiten. In einem realen Service braucht man Reserve für Kontext, Cache, parallele Anfragen und Lastspitzen.
Speicher einer einzelnen Karte mit dem Gesamtspeicher des Servers verwechseln
2 × 48 GB sind nicht immer dasselbe wie eine GPU mit 96 GB. Für manche Aufgaben kann das bequem sein, aber der Speicher mehrerer Karten funktioniert nicht immer wie ein gemeinsamer Pool.
Modellwachstum nicht berücksichtigen
Heute reichen 24 GB. Später kommt ein schwereres Modell hinzu, der Kontext wird länger, es gibt mehr Nutzer und Fine-Tuning wird nötig. Dadurch wird die Konfiguration schnell zu eng.
Den Attention-Cache vergessen
Das ist eine häufige Ursache unerwarteter Probleme. Das Modell scheint zu passen, aber bei langen Dialogen oder parallelen Anfragen läuft der Speicher voll.
An RAM und NVMe sparen
Die GPU kann leistungsstark sein, aber langsames Storage oder zu wenig Arbeitsspeicher verschlechtern die Gesamtleistung.
Eine Consumer-Karte für Serverlast wählen
Nicht jede Grafikkarte eignet sich für 24/7-Betrieb. Im Server sind Kühlung, Stromversorgung, Support, Formfaktor und Stabilität unter Dauerlast wichtig.
Wie man die richtige Grafikspeichergröße wählt
Vor dem Kauf ist eine kurze Checkliste hilfreich.
- Aufgabe bestimmen: Modellstart, RAG, Fine-Tuning, Training von Grund auf oder Service für Nutzer.
- Modellklasse verstehen: klein, mittel oder groß.
- Kontextlänge abschätzen.
- Erwartete Anzahl gleichzeitiger Anfragen berechnen.
- Entscheiden, ob Reserve für Wachstum nötig ist.
- Prüfen, ob eine einzelne GPU ausreicht.
- RAM, CPU, NVMe, Stromversorgung und Kühlung bewerten.
- Eine starke einzelne Karte mit mehreren GPUs vergleichen.
- Prüfen, wie einfach sich der Server skalieren lässt.
- Nicht die minimale, sondern eine stabile Konfiguration wählen.
Die Orientierung lässt sich so formulieren:
- 16 GB — Tests, Lernen, kleine Modelle;
- 24 GB — Prototypen und erste Experimente;
- 48 GB — eine Arbeitsvariante für viele AI-Aufgaben;
- 80 GB — große Modelle, langer Kontext, Produktion;
- 96 GB — maximaler Puffer auf einer professionellen GPU.
Was sollte man am Ende wählen?
Wenn die Aufgabe lern- oder experimentorientiert ist, kann man mit 16–24 GB beginnen. Das reicht, um Tools zu verstehen, eine Idee zu prüfen und kleinere Modelle zu starten.
Wenn ein produktiver Server für RAG, Dokumentenverarbeitung, einen internen Assistenten, Inferenz und kleines Fine-Tuning benötigt wird, ist 48 GB meist sinnvoller. Diese Speichermenge bietet Reserve und zwingt nicht dazu, ständig um jedes Gigabyte zu kämpfen.
Wenn ein großes Modell, langer Kontext, viele Nutzer, eine API oder stabiler Produktivbetrieb geplant sind, sollte man 80 GB in Betracht ziehen. Das ist bereits eine Klasse für ernsthafte Last, bei der es nicht nur darum geht, ein Modell zu starten, sondern reale Szenarien auszuhalten.
Wenn der maximale Puffer auf einer einzelnen GPU gebraucht wird, sollte man 96 GB betrachten. Das ist nützlich für schwere Inferenz, multimodale Modelle, komplexe Unternehmensservices und Aufgaben, bei denen mehrere kleinere Karten weniger bequem sind.
Wenn es aber um das Training großer Modelle von Grund auf oder um einen hochbelasteten AI-Service geht, muss die Frage breiter gestellt werden: nicht „wie viel Grafikspeicher hat eine einzelne Karte“, sondern „welcher Server oder Cluster hält Modell, Daten, Nutzer und Lastwachstum aus“.