Una tarjeta gráfica NVIDIA para servidor no debe elegirse por una sola cifra, ya sea el número de núcleos CUDA, los gigabytes de memoria o el valor máximo de TFLOPS. Para LLM, entrenamiento de redes neuronales, VDI, renderizado y cálculos científicos importan parámetros distintos, por lo que primero hay que entender la carga de trabajo y solo después comparar CUDA, Tensor Cores, precisión de cálculo, volumen y velocidad de la memoria de vídeo, PCIe/NVLink, TDP y compatibilidad con el servidor.
Es fácil perderse en las fichas técnicas de las GPU: una tarjeta tiene más TFLOPS, otra tiene más memoria de vídeo y una tercera consume menos energía. Pero una GPU de servidor no funciona aislada. Se instala en un servidor concreto, depende de la alimentación y la refrigeración, se conecta mediante PCIe o NVLink y utiliza determinados controladores y bibliotecas. Por eso, la tarjeta “más potente” sobre el papel no siempre será la mejor compra.
Si está seleccionando GPU NVIDIA para IA y redes neuronales, conviene leer las especificaciones no como una lista de términos, sino como respuestas a preguntas prácticas:
- si el modelo o la escena de trabajo cabrá en la memoria de vídeo;
- si la memoria podrá suministrar datos a los bloques de cálculo con suficiente rapidez;
- si la GPU admite la precisión de cálculo necesaria;
- si el servidor podrá refrigerar la tarjeta bajo carga constante;
- si tiene sentido pagar más por un modelo de gama alta precisamente para su tarea.
Mini glosario
CUDA — plataforma de NVIDIA para computación paralela en GPU.
Núcleos CUDA — bloques de cálculo universales.
Tensor Cores — bloques para cálculos matriciales rápidos, importantes para las redes neuronales.
TFLOPS — billones de operaciones de coma flotante por segundo.
TOPS — billones de operaciones por segundo, a menudo en modos de baja precisión.
FP32 — precisión simple.
FP16 — media precisión.
BF16 — formato que suele ser cómodo para entrenar redes neuronales.
FP8 — formato compacto para cargas de IA modernas.
INT8 — formato entero, usado con frecuencia para inferencia.
FP64 — doble precisión para cálculos científicos e ingenieriles.
VRAM — memoria de vídeo de la GPU.
HBM — memoria de alta velocidad para aceleradores de gama alta.
GDDR — memoria gráfica común.
Bandwidth — ancho de banda de memoria.
PCIe — interfaz para conectar la GPU al servidor.
NVLink — enlace rápido entre GPU.
TDP — paquete térmico, que influye en la alimentación y la refrigeración.
vGPU — virtualización de GPU para puestos de trabajo virtuales.
MIG — división de una GPU compatible en varias instancias aisladas.
Por qué las especificaciones de GPU suelen leerse mal
En la descripción de una tarjeta gráfica de servidor suelen aparecer cifras llamativas: decenas de miles de núcleos, cientos o miles de TFLOPS, gran capacidad de memoria y un alto ancho de banda. El problema es que esas cifras se refieren a partes distintas del trabajo de la GPU.
Por ejemplo, los TFLOPS muestran la potencia de cálculo teórica. Pero si la tarea está limitada por la memoria de vídeo, esa potencia pico no se aprovechará. Si el modelo no cabe en la VRAM, la GPU tendrá que intercambiar datos constantemente con el sistema o dividir el modelo entre varias tarjetas. Si el servidor no está diseñado para el paquete térmico necesario, la tarjeta se sobrecalentará o no funcionará a plena potencia.
Los errores más frecuentes son:
- comparar TFLOPS en distintos modos de precisión;
- elegir la GPU por el número de núcleos CUDA;
- mirar solo la capacidad de memoria, pero no su velocidad;
- olvidar las líneas PCIe, NVLink y la topología del servidor;
- no comprobar el TDP, el factor de forma y la refrigeración;
- comprar una tarjeta para VDI sin revisar la compatibilidad con vGPU;
- elegir un acelerador de IA para cálculos científicos que requieren doble precisión.
En las GPU de servidor no existe una clasificación universal “de mejor a peor”. Lo que existe es la adecuación a una tarea concreta.
Primero defina la carga de trabajo
Una misma GPU puede ser una buena elección para inferencia, discutible para VDI y poco rentable para cálculos científicos. Por eso, antes de comparar especificaciones, hay que entender qué se ejecutará exactamente en el servidor.
Inferencia de LLM
Para ejecutar grandes modelos de lenguaje, lo más importante es:
- la capacidad de la memoria de vídeo;
- el ancho de banda de la memoria;
- la compatibilidad con BF16, FP16, FP8 o INT8;
- los Tensor Cores;
- la velocidad de intercambio entre GPU, si el modelo se divide entre varias tarjetas;
- el consumo energético por solicitud.
Si el modelo no cabe en la memoria, el número de núcleos CUDA no ayudará. Si cabe, pero la memoria es lenta, el cuello de botella puede ser el suministro de datos. Por eso, en LLM se suele mirar no solo el cálculo, sino la combinación “VRAM + bandwidth + Tensor Cores”.
Por ejemplo, NVIDIA H200 resulta interesante precisamente porque combina un gran volumen de memoria HBM3e con un alto ancho de banda. Esto es importante para modelos grandes y contextos largos.
Entrenamiento de redes neuronales
Para el entrenamiento son importantes:
- los Tensor Cores;
- la compatibilidad con BF16, FP16 y FP8;
- la memoria necesaria para el modelo, el batch, las activaciones y el optimizador;
- el ancho de banda de memoria;
- NVLink u otro enlace rápido entre GPU;
- la estabilidad de la refrigeración bajo carga prolongada.
Durante el entrenamiento, la GPU puede trabajar con una carga elevada durante horas o días. Por eso no basta con mirar los TFLOPS pico. Se necesita toda la plataforma: servidor, alimentación, refrigeración, topología de GPU, controladores y bibliotecas.
Renderizado y gráficos 3D
Para el renderizado son importantes:
- los núcleos CUDA;
- los núcleos RT, si se usa trazado de rayos;
- la memoria disponible para escenas, texturas y geometría;
- la compatibilidad con el software concreto;
- los controladores;
- el régimen térmico.
Para estas tareas no siempre se necesita el acelerador de IA más caro. A veces una tarjeta más universal como NVIDIA L40S es más lógica, porque está pensada no solo para IA, sino también para gráficos, renderizado y cargas multimedia.
VDI y puestos de trabajo virtuales
Para VDI no solo importan las características “brutas” de la GPU. Hay que revisar:
- la compatibilidad con vGPU;
- la memoria de vídeo por usuario;
- los perfiles de virtualización disponibles;
- el licenciamiento;
- la codificación y decodificación de vídeo;
- la compatibilidad con el hipervisor;
- el consumo energético y la densidad de instalación.
La documentación de NVIDIA vGPU es útil precisamente porque, para los puestos de trabajo virtuales, no solo importa el hardware, sino también el modelo de software: versiones de controladores, licencias, hipervisores y GPU compatibles.
Cálculos científicos e ingenieriles
Para HPC y tareas de ingeniería son importantes:
- FP64, si se requiere doble precisión;
- el ancho de banda de memoria;
- memoria ECC;
- estabilidad bajo carga prolongada;
- escalado entre GPU;
- compatibilidad con las bibliotecas necesarias.
Aquí no conviene orientarse solo por FP8 o INT8. Estos modos son útiles para IA, pero no sustituyen a FP64 si el cálculo requiere una alta precisión numérica.
Qué parámetro mirar primero
| Tarea | Qué mirar primero | Qué mirar después | Qué se suele olvidar |
|---|---|---|---|
| Inferencia de LLM | Capacidad de la memoria de vídeo | Ancho de banda de memoria, Tensor Cores, FP8/BF16/INT8 | El modelo puede no caber en memoria; varias GPU requieren un enlace rápido |
| Entrenamiento de modelos | Tensor Cores y compatibilidad con la precisión necesaria | VRAM, bandwidth, NVLink | Los TFLOPS pico no muestran todo el rendimiento del entrenamiento |
| Renderizado | Núcleos CUDA/RT | VRAM, controladores, compatibilidad de software | Una tarjeta de IA no siempre es óptima para un render concreto |
| VDI | vGPU y VRAM por usuario | NVENC/NVDEC, TDP, factor de forma | Licencias y perfiles de virtualización |
| Cálculos científicos | FP64 y bandwidth | ECC, NVLink, estabilidad | No todas las GPU de IA son adecuadas para doble precisión |
| Videoanalítica | NVENC/NVDEC | TDP, memoria, número de flujos | Los TFLOPS pueden ser secundarios |
| Servidor mixto | Equilibrio entre VRAM, bandwidth y TDP | Compatibilidad con el servidor | El servidor puede no soportar la carga de alimentación o refrigeración |
Núcleos CUDA: cuándo importan y cuándo pueden confundir
Los núcleos CUDA son bloques de cálculo universales de la GPU. Ejecutan muchas operaciones en paralelo y son importantes para tareas que se paralelizan bien: renderizado, simulaciones, procesamiento de imágenes y parte de los cálculos en aprendizaje automático.
Pero el número de núcleos CUDA no debe leerse como una respuesta directa a la pregunta “qué tarjeta es más rápida”. El rendimiento real depende de:
- la arquitectura de la GPU;
- las frecuencias;
- el tipo y la velocidad de la memoria;
- los Tensor Cores;
- los modos de precisión admitidos;
- los controladores y las bibliotecas;
- la optimización de la aplicación concreta.
Un error común es elegir una GPU para LLM solo porque tiene más núcleos CUDA. En los modelos de lenguaje suele importar más si el modelo cabe en memoria, con qué rapidez la GPU lee los pesos desde la VRAM y si admite el modo de cálculo necesario.
Para renderizado, los núcleos CUDA pueden ser mucho más importantes. Pero incluso ahí deben evaluarse junto con la memoria, los núcleos RT y los requisitos del motor concreto.
Tensor Cores: por qué son importantes para la IA
Los Tensor Cores son bloques especializados para cálculos matriciales. Las operaciones matriciales están en la base de las redes neuronales, por lo que los Tensor Cores son especialmente importantes para el entrenamiento y la inferencia.
H100 GPU.
Fuente de la imagen: NVIDIA
Su papel se ve claramente en las generaciones NVIDIA A100, H100 y H200. Por ejemplo, NVIDIA H100 ofrece alto rendimiento en FP16, BF16, FP8 e INT8, y utiliza la arquitectura Hopper, diseñada para cargas de IA modernas.
Al leer una especificación, es importante mirar no solo el número de Tensor Cores, sino también qué modos admiten:
- FP16 — formato extendido para redes neuronales;
- BF16 — suele ser cómodo para el entrenamiento, porque maneja mejor un amplio rango de valores;
- FP8 — formato más compacto para cargas de IA modernas;
- INT8 — se usa con frecuencia para inferencia después de la cuantización.
Unas cifras altas de Tensor TFLOPS no significan que cualquier modelo vaya a acelerarse automáticamente. Hay que comprobar si el framework elegido, el motor de inferencia y el propio modelo admiten el modo necesario.
FP32, FP16, BF16, FP8, INT8 y FP64 en palabras sencillas
En las especificaciones de las GPU de servidor suelen aparecer distintos tipos de precisión. No son simples abreviaturas técnicas. Indican cómo la GPU almacena y procesa los números.
FP32
Precisión simple. Se usa en cálculos universales, gráficos, parte del código de ML y tareas en las que no se puede reducir demasiado la precisión.
FP16
Media precisión. Los números ocupan menos espacio, los cálculos se ejecutan más rápido y se consume menos memoria. Se utiliza ampliamente en redes neuronales.
BF16
Formato cómodo para entrenar redes neuronales. Es similar a FP16 en tamaño, pero a menudo se comporta mejor al entrenar modelos grandes.
FP8
Formato aún más compacto. Puede acelerar el entrenamiento y la inferencia, pero requiere compatibilidad por parte de la GPU, las bibliotecas y el modelo. No se puede tomar cualquier modelo y esperar que FP8 dé el mismo resultado sin ajustes.
INT8
Formato entero. Se usa con frecuencia para inferencia cuando el modelo ya ha sido entrenado y puede cuantizarse. Ayuda a reducir los requisitos de memoria y aumentar la velocidad, pero requiere comprobar la calidad.
FP64
Doble precisión. Es importante para parte de los cálculos científicos, ingenieriles y financieros. Para la mayoría de los LLM no es el parámetro principal, pero para HPC puede ser decisivo.
El error principal es comparar cifras en modos distintos. El FP32 de una tarjeta no puede compararse directamente con el FP8 de otra. Son tipos de cálculo diferentes, con distinta precisión y distintos escenarios.
TFLOPS y TOPS: por qué la potencia pico no equivale a la velocidad de la aplicación
Los TFLOPS indican cuántos billones de operaciones de coma flotante puede ejecutar teóricamente una GPU por segundo. Los TOPS se utilizan con más frecuencia para operaciones de baja precisión o enteras.
Pero los valores pico no garantizan la velocidad en una tarea real. En el resultado influyen:
- la precisión de cálculo;
- el tamaño del batch;
- la arquitectura del modelo;
- la velocidad de la memoria;
- la transferencia de datos entre CPU y GPU;
- el intercambio entre varias GPU;
- la versión del controlador;
- la optimización del framework;
- la temperatura y los límites de alimentación.
Si la especificación muestra un valor muy alto de TFLOPS, hay que hacerse tres preguntas:
- ¿En qué precisión se ha medido?
- ¿Son cálculos densos o un modo con sparsity?
- ¿Mi software puede utilizar realmente ese modo?
Para la inferencia de LLM no solo importan las operaciones por segundo. A menudo son más importantes la latencia de respuesta, el número de tokens por segundo, el tamaño del contexto, la carga de memoria y el coste por solicitud.
Memoria de vídeo: capacidad, tipo, bus y ancho de banda
La memoria de vídeo es uno de los parámetros principales de una GPU de servidor. Pero tampoco debe evaluarse solo por su capacidad.
Capacidad de VRAM
La capacidad de la memoria de vídeo muestra cuántos datos pueden permanecer directamente en la GPU sin intercambio constante con la memoria del sistema.
Es importante para:
- LLM — para que el modelo y el contexto quepan en memoria;
- entrenamiento — para que haya espacio suficiente para el modelo, el batch, las activaciones y el optimizador;
- renderizado — para que la escena y las texturas no se descarguen de la memoria;
- VDI — para que cada usuario tenga suficiente memoria para su perfil;
- cálculos científicos — para no fragmentar demasiado los datos.
Si el modelo necesita más memoria de la que hay en la GPU, habrá que usar varias tarjetas, descargar parte de los datos a la memoria del sistema o reducir el modelo/la precisión. Todas estas opciones afectan a la velocidad y al coste.
Tipo de memoria
En las GPU de servidor se encuentran con más frecuencia HBM y GDDR.
HBM es una memoria cara y muy rápida que se utiliza en aceleradores de gama alta para IA y HPC. Ofrece un alto ancho de banda y encaja bien con tareas en las que la GPU lee constantemente grandes volúmenes de datos.
GDDR es una memoria gráfica más común. Suele encontrarse en GPU universales para gráficos, renderizado, VDI, vídeo y parte de las tareas de IA.
Por ejemplo, NVIDIA A100 utiliza HBM2e, mientras que H100/H200 pasaron a generaciones más nuevas de HBM. Por eso, dos tarjetas con una capacidad de memoria similar pueden diferir mucho en la velocidad real de trabajo con los datos.
Bus de memoria
El bus de memoria es, en términos simples, el “ancho de la carretera” entre la GPU y la memoria de vídeo. Cuanto más ancho sea, más datos pueden transferirse en un ciclo. Pero el ancho del bus por sí solo no ofrece una imagen completa.
En el ancho de banda final influyen:
- el tipo de memoria;
- la frecuencia de la memoria;
- la arquitectura de la GPU;
- los controladores de memoria;
- la caché;
- las características de la tarea concreta.
Bandwidth
Bandwidth, o ancho de banda de memoria, muestra con qué rapidez la GPU puede leer y escribir datos en la VRAM. Para LLM y HPC, este parámetro suele ser crítico.
Si los bloques de cálculo están listos para trabajar más rápido de lo que la memoria puede suministrar datos, parte de la potencia queda sin utilizar. Por eso, una tarjeta con menos TFLOPS pico, pero con una memoria más rápida, puede ser mejor para una tarea limitada por la memoria.
PCIe, NVLink y líneas PCIe
La GPU se conecta al servidor mediante una interfaz. Lo más habitual es PCIe. En sistemas multi-GPU también son importantes NVLink y la topología del servidor.
PCIe influye en el intercambio entre CPU, memoria del sistema, unidades de almacenamiento y GPU. Para una sola tarjeta en una tarea sencilla puede no ser el principal limitador. Pero en modelos grandes, entrenamiento distribuido y transferencia activa de datos entre varias GPU, la interfaz se vuelve más importante.
Al elegir un servidor, hay que comprobar:
- cuántas líneas PCIe están disponibles para cada GPU;
- qué generación de PCIe se admite;
- cuántas tarjetas caben físicamente;
- si las GPU comparten líneas con otros dispositivos;
- si hay NVLink o NVSwitch;
- si el servidor admite la topología necesaria;
- si bastan la alimentación y la refrigeración.
Que una GPU potente aparezca en la lista de precios no significa que pueda instalarse sin problemas en cualquier servidor. Especialmente si se trata de varias tarjetas con un TDP elevado.
TDP, alimentación y refrigeración
El TDP indica el paquete térmico de la GPU. En infraestructura de servidor no significa simplemente “cuánta electricidad consume la tarjeta”. Es un parámetro que afecta a toda la operación.
El TDP está relacionado con:
- la generación de calor;
- los requisitos de flujo de aire;
- las fuentes de alimentación;
- la densidad de instalación de GPU;
- el nivel de ruido;
- la temperatura en el rack;
- el coste de la electricidad;
- la posibilidad de instalar varias tarjetas en un servidor.
Muchas GPU de servidor tienen refrigeración pasiva y dependen del flujo de aire dentro del servidor. Una tarjeta de este tipo no está pensada para una caja convencional sin un airflow correcto. Si la refrigeración no está dimensionada para la carga térmica necesaria, la GPU reducirá frecuencias, se sobrecalentará o funcionará de forma inestable.
Un TDP alto no convierte una tarjeta en mala. Para aceleradores de IA y HPC de gama alta, es el coste normal de un alto rendimiento. La pregunta es otra: si el servidor y el centro de datos están preparados para esa tarjeta y si su rendimiento compensa en su carga de trabajo.
Cómo traducir las especificaciones de GPU a sentido ingenieril
| Característica | Qué significa en palabras sencillas | En qué influye | Cuándo es crítica |
|---|---|---|---|
| Núcleos CUDA | Bloques de cálculo paralelos universales | Renderizado, simulaciones, parte de los cálculos | Renderizado, parte de HPC, procesamiento de imágenes |
| Tensor Cores | Bloques para cálculos matriciales | Entrenamiento e inferencia de redes neuronales | LLM, ML, DL |
| TFLOPS | Velocidad teórica de operaciones de coma flotante | Potencial de cálculo | Solo al comparar la misma precisión |
| TOPS | Operaciones por segundo en modos de baja precisión | Inferencia, cuantización | Inferencia INT8/FP8 |
| FP16/BF16/FP8 | Formatos de cálculo compactos | Velocidad y consumo de memoria | Redes neuronales modernas |
| FP64 | Doble precisión | Precisión de los cálculos | HPC, tareas ingenieriles y científicas |
| VRAM | Capacidad de la memoria de vídeo | Tamaño del modelo, de la escena o del perfil de usuario | LLM, VDI, renderizado, entrenamiento |
| Bandwidth | Velocidad de intercambio con la memoria de vídeo | Carga de los bloques de cálculo | LLM, HPC, grandes conjuntos de datos |
| PCIe/NVLink | Comunicación de la GPU con el servidor y con otras GPU | Escalado e intercambio de datos | Multi-GPU, entrenamiento, modelos grandes |
| TDP | Paquete térmico | Alimentación, refrigeración, coste operativo | Servidores GPU densos |
| Factor de forma | Ejecución física de la tarjeta | Compatibilidad con el servidor | Cualquier compra de GPU |
Cómo leer paso a paso la ficha de una GPU NVIDIA
Antes de comprar, conviene recorrer la especificación siguiendo una ruta simple.
- Defina la tarea.
LLM, entrenamiento, VDI, renderizado y HPC requieren parámetros distintos. - Compruebe la capacidad de la memoria de vídeo.
Primero hay que entender si el modelo, la escena, el conjunto de datos o el perfil de usuario caben en memoria. - Mire el ancho de banda de memoria.
Especialmente si la tarea está relacionada con LLM, grandes volúmenes de datos o cálculos científicos. - Compruebe los Tensor Cores y la precisión.
Para IA son importantes FP16, BF16, FP8 e INT8, pero solo si su stack sabe trabajar con ellos. - Compare los TFLOPS solo en el mismo modo.
FP32 se compara con FP32, FP16 con FP16, FP8 con FP8. - Evalúe la interfaz.
PCIe, NVLink y la topología del servidor son especialmente importantes para varias GPU. - Compruebe el TDP.
El servidor debe soportar la alimentación y la refrigeración bajo carga constante. - Aclare el factor de forma.
PCIe y SXM son variantes de ejecución diferentes. No son intercambiables sin una plataforma adecuada. - Compruebe el soporte de software.
Controladores, CUDA, vGPU, frameworks y bibliotecas deben corresponder a la tarea. - Calcule el coste de la solución, no solo el precio de la tarjeta.
El total incluye servidor, alimentación, refrigeración, licencias, soporte, tiempo de inactividad y escalado.
Errores frecuentes al elegir una GPU NVIDIA de servidor
Comparar TFLOPS sin tener en cuenta la precisión
Una tarjeta puede mostrar valores altos en FP8 y otra en FP32 o FP64. Son modos distintos. No se puede concluir “esta GPU es más rápida” sin aclarar en qué precisión trabaja su tarea.
Elegir por los núcleos CUDA
El número de núcleos CUDA importa, pero no sustituye a la memoria, los Tensor Cores, el bandwidth ni la arquitectura. En LLM, este error es especialmente frecuente.
Mirar solo la capacidad de VRAM
80 GB de memoria no son toda la especificación. Hay que mirar el tipo de memoria, el ancho de banda, la interfaz y el factor de forma. Para modelos grandes, la velocidad de memoria puede ser tan importante como la capacidad.
Ignorar el servidor
La GPU debe encajar física y eléctricamente en el servidor. Hay que comprobar alimentación, airflow, líneas PCIe, altura y anchura de la tarjeta, compatibilidad de BIOS y soporte del fabricante.
No tener en cuenta las licencias para VDI
Para puestos de trabajo virtuales no solo importa la GPU, sino todo el ecosistema vGPU. Sin las licencias y los perfiles necesarios, la tarjeta puede no resolver la tarea.
Comprar una tarjeta de gama alta para una carga ligera
No todas las tareas necesitan H100 o H200. Para inferencia ligera, videoanalítica o VDI, a veces es más razonable mirar tarjetas con menor TDP y un coste total de propiedad más adecuado, por ejemplo NVIDIA T4 16 GB o GPU PCIe más universales.
Ejemplos de elección para distintos escenarios
Servidor para inferencia de LLM
Primero hay que entender:
- cuántos parámetros tiene el modelo;
- en qué precisión funcionará;
- qué tamaño de contexto se necesita;
- si el modelo cabe en una sola GPU;
- si se requiere ejecución en varias GPU;
- si es más importante la latencia o el rendimiento total;
- si el stack admite FP8, BF16 o INT8.
Para modelos grandes, tiene sentido mirar GPU con memoria HBM grande y rápida, por ejemplo NVIDIA H100 80 GB o NVIDIA H200. Pero si el modelo es pequeño o ya está cuantizado, una tarjeta de gama alta puede resultar excesiva.
Servidor para entrenamiento
En el entrenamiento no solo importa una GPU, sino toda la plataforma. Hay que evaluar:
- cuánta memoria necesita el modelo y el batch;
- si se admiten BF16/FP16/FP8;
- si se necesita NVLink;
- cuántas GPU habrá en el servidor;
- si el servidor soportará una carga completa prolongada;
- qué versiones de CUDA y bibliotecas se necesitan.
Para estas tareas se suelen considerar NVIDIA A100 80 GB, H100 o H200, pero la elección depende de la escala del entrenamiento y del presupuesto.
Servidor para VDI
Para puestos de trabajo virtuales, primero se calculan usuarios y perfiles:
- tareas de oficina;
- CAD;
- 3D;
- vídeo;
- trabajo con varios monitores;
- herramientas de IA ligeras.
Después se calcula la memoria de vídeo por usuario y se comprueban vGPU, licencias y compatibilidad con el hipervisor. En VDI, la tarjeta de IA más cara no siempre es más rentable. Importan más la estabilidad, la densidad de usuarios y un coste predecible.
Servidor para renderizado
Para renderizado hay que mirar cómo el motor concreto utiliza la GPU. Algunas tareas dependen más de CUDA, otras de la aceleración RT y otras llegan rápidamente al límite de la VRAM.
Si las escenas son pesadas, la memoria se vuelve crítica. Si las escenas son pequeñas, pero el renderizado se ejecuta en flujo continuo, importan más el rendimiento general y la refrigeración. Para tareas mixtas de renderizado, gráficos e inferencia se puede considerar NVIDIA L40S 48 GB.
Servidor para cálculos científicos
Aquí hay que aclarar desde el principio si se necesita doble precisión. Si la tarea requiere FP64, los indicadores FP8 o INT8 dicen muy poco sobre la idoneidad de la GPU.
También son importantes:
- ECC;
- bandwidth;
- escalado;
- bibliotecas;
- repetibilidad de los resultados;
- estabilidad bajo carga prolongada.
Para HPC no se debe elegir una tarjeta solo por el marketing de IA. Hay que leer exactamente las características que se relacionan con la tarea científica.
Qué conclusión sacar antes de comprar
Una tarjeta gráfica NVIDIA para servidor debe elegirse no por la cifra más alta de la especificación, sino por la combinación de parámetros adecuada para una carga concreta. Para LLM, primero importan la memoria de vídeo, el bandwidth, los Tensor Cores y la precisión. Para entrenamiento, la memoria, los Tensor Cores, NVLink y la plataforma de servidor. Para VDI, vGPU, memoria por usuario, licencias y eficiencia energética. Para renderizado, núcleos CUDA/RT, VRAM y compatibilidad con software. Para HPC, FP64, bandwidth, ECC y estabilidad.
Antes de comprar, conviene comprobar no solo la GPU, sino también el servidor: alimentación, refrigeración, líneas PCIe, factor de forma, soporte de controladores y posibilidad de escalado. Así es más fácil evitar una situación en la que la tarjeta parece potente en la especificación, pero no se aprovecha en una tarea real o ni siquiera encaja en la plataforma elegida.