Iniciar sesión
Solicitud de reparación bajo garantía

En caso de un problema, proporcionaremos diagnóstico y reparaciones en el sitio de instalación del servidor. De forma gratuita.

Idioma

PCIe, SXM, HGX y DGX: ¿Cuál es la diferencia entre las plataformas de servidores GPU y cuándo se necesita cada una?

Plataformas de servidores GPU PCIe, SXM, HGX y DGX

PCIe, SXM, HGX y DGX no son cuatro tipos equivalentes de servidores GPU, sino distintos niveles de una misma cadena de infraestructura. PCIe y SXM describen el formato de instalación de la GPU, HGX es una plataforma de NVIDIA para servidores potentes de fabricantes de hardware, y DGX es un sistema llave en mano de NVIDIA. Si se necesita un servidor económico y flexible para inferencia, pruebas, RAG o varios modelos aplicados, en la mayoría de los casos basta con PCIe. Si la tarea requiere 4–8 GPU con una conexión rápida entre ellas, conviene mirar hacia SXM/HGX. DGX tiene sentido cuando importan no solo las tarjetas gráficas, sino también una plataforma hardware-software completa, con soporte, configuración predecible y menos riesgos de integración.

Para elegir un servidor GPU no basta con comparar solo la generación de las tarjetas gráficas o la cantidad de memoria de vídeo. Dos sistemas con las mismas H100 o H200 pueden comportarse de forma diferente: uno puede estar montado como un servidor PCIe universal, otro como una plataforma HGX densa con NVLink y NVSwitch, y un tercero como un complejo DGX listo para usar. La diferencia se verá en el precio, la refrigeración, el consumo energético, la velocidad de intercambio entre GPU, la complejidad de mantenimiento y los requisitos del centro de datos.

Por eso la pregunta correcta no es «qué es mejor: PCIe, SXM, HGX o DGX», sino «qué plataforma encaja con una carga, un presupuesto y una infraestructura concretos». Para una empresa que ejecuta varios modelos en GPU independientes, pagar de más por una topología compleja puede no compensar. Para un equipo que entrena un modelo grande y mueve datos constantemente entre varias GPU, una conexión débil entre tarjetas se convertirá rápidamente en un cuello de botella.

Por qué PCIe, SXM, HGX y DGX no se pueden comparar directamente

La principal confusión aparece porque estos nombres pertenecen a niveles distintos.

PCIe — en este caso no se refiere a la interfaz o bus en sí, sino al formato habitual de conexión de una tarjeta de expansión al servidor. Es parecido a lo que ocurre en los PC de escritorio: una GPU en este formato se instala en una ranura PCIe como otras tarjetas de servidor, por ejemplo adaptadores de red, controladores o aceleradores. En los servidores GPU, PCIe sigue siendo la opción más flexible: permite montar una configuración con una, dos, cuatro o más tarjetas gráficas, siempre que el chasis, la alimentación y la refrigeración lo permitan.

SXM es un factor de forma modular de GPU NVIDIA para plataformas de servidor densas. Una GPU de este tipo no se inserta en una ranura convencional como una tarjeta PCIe. Se instala sobre una placa especial y está pensada para sistemas donde son importantes la alta densidad, la refrigeración potente y el intercambio rápido de datos entre tarjetas gráficas.

HGX ya no es una tarjeta gráfica separada. Es una plataforma de NVIDIA para fabricantes de servidores. Sobre su base, los OEM construyen sus propios servidores GPU: añaden CPU, memoria, unidades de almacenamiento, red, chasis, fuentes de alimentación, refrigeración y opciones de servicio. Normalmente, HGX se asocia con sistemas de 4 u 8 GPU donde se usan módulos SXM y una conexión interna rápida entre ellos.

DGX es un sistema completo de NVIDIA. No se compra como un conjunto de componentes, sino como una plataforma acabada: servidor, GPU, NVSwitch, red, almacenamiento, software y soporte se suministran como un único producto. Se parece más a una appliance corporativa, donde el cliente paga por previsibilidad, soporte y una puesta en marcha rápida.

La jerarquía se entiende mejor así:

  1. En el nivel inferior está la propia GPU: tarjeta PCIe o módulo SXM.
  2. Por encima, la plataforma de servidor: por ejemplo, HGX como base para un servidor OEM.
  3. Más arriba, el sistema completo: DGX como producto terminado de NVIDIA.

Por eso la frase «elegir entre PCIe y DGX» no es del todo correcta. PCIe es un formato de GPU dentro del servidor, mientras que DGX es un sistema completo. Es más correcto comparar escenarios: si se necesita un servidor flexible con GPU PCIe, un nodo HGX denso o un complejo DGX listo para usar.

Qué es un servidor GPU PCIe

Un servidor GPU PCIe es la opción más comprensible y extendida para la mayoría de las empresas. En este tipo de sistema, las tarjetas gráficas se instalan como tarjetas de expansión. El servidor puede ser relativamente compacto y económico, o puede ser una potente plataforma 4U con varias GPU, gran margen de alimentación y un flujo de aire bien diseñado.

PCIe se elige cuando importan la flexibilidad y un coste de entrada razonable. Este tipo de servidor es cómodo para tareas en las que cada GPU puede trabajar de forma relativamente independiente:

  • inferencia de modelos lingüísticos;
  • sistemas RAG y búsqueda vectorial;
  • procesamiento de imágenes y vídeo;
  • pruebas de modelos;
  • analítica y procesamiento por lotes de datos;
  • VDI, renderizado y cargas gráficas;
  • entornos de desarrollo y staging para equipos de ML.

En estos escenarios, a menudo importan más la memoria de vídeo, el precio de cada tarjeta, la disponibilidad en el mercado, la compatibilidad con el servidor y el coste de mantenimiento que la máxima interconexión entre GPU. Por ejemplo, para inferencia aplicada se pueden considerar GPU NVIDIA para servidores en formato PCIe: desde modelos más accesibles hasta aceleradores de gama alta como A100, H100 o H200.

PCIe tiene varias fortalezas:

  • amplia selección de servidores y tarjetas gráficas;
  • más facilidad para elegir una configuración reacondicionada;
  • coste de entrada inferior frente a sistemas densos SXM/HGX;
  • sustitución más sencilla de una tarjeta individual;
  • más facilidad para montar una configuración mixta para distintas tareas;
  • más opciones de chasis, CPU, memoria, almacenamiento y tarjetas de red.

Pero PCIe no debe verse como una solución universal para cualquier carga de AI. Este enfoque tiene limitaciones:

  • la densidad de GPU suele ser menor que en SXM/HGX;
  • el intercambio entre GPU suele pasar por el bus PCIe, no por una topología NVSwitch completa;
  • es más difícil entrenar de forma eficiente modelos grandes en varias GPU;
  • hay que comprobar con cuidado el número de líneas PCIe y su distribución entre dispositivos, incluidos, por ejemplo, NVMe, risers, fuentes de alimentación y refrigeración;
  • no todos los servidores que físicamente admiten varias GPU son capaces de aprovecharlas bajo carga alta.

Uno de los errores frecuentes es comprar un servidor en el que «según la descripción» caben cuatro GPU, pero no comprobar el régimen térmico, la alimentación y la compatibilidad de las tarjetas concretas. Como resultado, los aceleradores pueden reducir frecuencias, sobrecalentarse o exigir ajustes adicionales de la configuración.

Qué es SXM y en qué se diferencia de PCIe

Módulo GPU SXM y tarjeta gráfica PCIe

SXM es un formato modular de GPU NVIDIA para servidores. A diferencia de una tarjeta PCIe, un módulo SXM no está pensado para instalarse en una ranura convencional. Se utiliza en plataformas especializadas donde las tarjetas gráficas se colocan con mayor densidad, reciben más alimentación y se conectan a una topología interna de alta velocidad.

SXM aparece con más frecuencia en sistemas donde se necesitan muchas GPU en un solo nodo y una alta velocidad de intercambio entre ellas. Por ejemplo, NVIDIA ofrece la H100 en variantes SXM y PCIe; la versión SXM está diseñada para un paquete térmico más alto y configuraciones de servidor más densas. NVIDIA detalla las especificaciones de la H100 en la descripción oficial de NVIDIA H100 Tensor Core GPU.

SXM se elige no porque sea «simplemente una GPU más cara», sino porque la tarea requiere otra arquitectura de servidor. Este formato es necesario cuando importan:

  • 4–8 GPU en un solo nodo;
  • conexión rápida entre GPU;
  • entrenamiento de modelos grandes;
  • fine-tuning de LLM;
  • computación de alto rendimiento;
  • densidad de cómputo por rack;
  • rendimiento predecible bajo carga prolongada.

SXM tiene ventajas evidentes:

  • mayor densidad de GPU;
  • mejor encaje en sistemas con NVLink y NVSwitch;
  • mayor eficiencia en tareas donde varias GPU funcionan como un único pool de cómputo;
  • uso habitual en servidores AI y HPC de gama alta;
  • posibilidad de construir nodos potentes para entrenamiento y computación distribuida.

Pero SXM también exige una infraestructura más seria:

  • una plataforma de servidor compatible;
  • refrigeración potente;
  • alimentación suficiente;
  • un esquema de servicio bien pensado;
  • mantenimiento cualificado;
  • verificación de la disponibilidad de repuestos;
  • comprensión de la escalabilidad futura.

En un servidor PCIe, sustituir una tarjeta suele ser más sencillo: se abre el servidor, se retira el acelerador y se instala otro compatible. En sistemas SXM/HGX todo depende del diseño de la plataforma, del acceso a los módulos, del sistema de refrigeración y de la política del fabricante. En equipos reacondicionados esto es especialmente importante: hay que comprobar no solo las GPU, sino también el estado de la refrigeración, placas, cables, ventiladores y firmware.

NVLink y NVSwitch: por qué la conexión entre GPU puede ser más importante que su cantidad

NVLink y NVSwitch en un servidor GPU

En la infraestructura de AI, a menudo se cuentan las GPU una por una: una, dos, cuatro, ocho. Pero el número de tarjetas gráficas no siempre refleja el rendimiento real. Si la tarea usa cada GPU de forma independiente, la topología de conexión entre ellas puede ser secundaria. Si un único modelo se distribuye entre varias GPU, la velocidad de intercambio se vuelve crítica.

NVLink es una conexión de alta velocidad entre GPU. Permite que las tarjetas gráficas intercambien datos más rápido que mediante la interacción habitual a través de PCIe. NVSwitch es un conmutador que ayuda a que varias GPU se comuniquen entre sí de forma más uniforme y con gran ancho de banda. En sistemas densos esto es especialmente importante: las GPU no solo están colocadas una al lado de otra, sino que funcionan como un grupo de cómputo conectado.

Para una inferencia pequeña, NVLink/NVSwitch puede influir muy poco en el resultado final. Si el modelo cabe en una GPU y las solicitudes se distribuyen entre varias instancias independientes, son más importantes otros parámetros:

  • cantidad de memoria de vídeo;
  • coste de una GPU;
  • consumo energético;
  • refrigeración;
  • número de solicitudes simultáneas;
  • facilidad para escalar el servicio;
  • disponibilidad de tarjetas en el mercado.

Pero en el entrenamiento de modelos grandes la situación cambia. Los datos, pesos del modelo, gradientes y resultados intermedios se transmiten constantemente entre GPU. Si la conexión es débil, parte del tiempo los aceleradores estarán esperando el intercambio de datos en lugar de calcular. En ese escenario, 8 GPU en un sistema HGX denso y 8 GPU PCIe en una configuración menos conectada pueden ofrecer resultados distintos.

NVLink y NVSwitch son especialmente importantes para:

  • entrenamiento de grandes modelos lingüísticos;
  • fine-tuning de modelos en varias GPU;
  • tareas HPC;
  • computación distribuida;
  • escenarios en los que una sola tarea usa activamente 4–8 GPU;
  • nodos GPU densos que deben funcionar como un único sistema.

Se puede prescindir de una topología compleja si la carga se divide en partes independientes:

  • varios modelos atienden solicitudes distintas;
  • cada GPU ejecuta un servicio de inferencia separado;
  • el servidor se usa para procesamiento por lotes;
  • el equipo ejecuta pruebas y experimentos;
  • la tarea principal es renderizado, VDI o visualización.

Por eso, antes de comprar, hay que entender no solo «cuántas GPU hacen falta», sino también «cómo exactamente la aplicación utilizará varias GPU». Esto influye en la elección más de lo que parece en la fase de adquisición.

Qué es HGX y cuándo se necesita

NVIDIA HGX Platform

Fuente de la imagen: página oficial de NVIDIA HGX Platform.

HGX es una plataforma de NVIDIA para fabricantes de servidores. Puede entenderse como una base sobre la que se construye un potente servidor GPU OEM. NVIDIA describe HGX como una plataforma que combina GPU, NVLink, tecnologías de red y stack de software para tareas de AI y HPC: NVIDIA HGX Platform.

En una compra real, esto significa que el cliente no compra «HGX por sí solo», sino un servidor Dell, HPE, Lenovo, Supermicro u otro fabricante construido sobre HGX. Dentro de ese sistema puede haber varias GPU SXM, NVSwitch, procesadores, memoria, almacenamiento, adaptadores de red y refrigeración elegidos por el OEM concreto.

HGX se necesita cuando PCIe ya limita la tarea. Normalmente se trata de escenarios que requieren 4 u 8 GPU potentes en un solo nodo y una alta velocidad de intercambio entre ellas. Por ejemplo:

  • entrenamiento de modelos grandes;
  • fine-tuning de LLM;
  • HPC;
  • grandes plataformas RAG con modelos pesados;
  • clústeres de investigación;
  • plataformas corporativas de AI;
  • tareas donde importa una alta densidad de GPU por rack.

HGX tiene una ventaja importante frente a DGX: más opciones de fabricantes y configuraciones. Se puede elegir un servidor OEM según requisitos concretos: CPU, cantidad de memoria RAM, almacenamiento local, adaptadores de red, garantía, modelo de servicio y presupuesto. Para empresas que quieren una plataforma GPU potente, pero no necesariamente un sistema NVIDIA llave en mano, suele ser un camino más flexible.

Por ejemplo, para tareas de entrenamiento y fine-tuning se pueden considerar servidores con GPU de nivel NVIDIA H100 80 GB o NVIDIA H200, pero la eficiencia final dependerá no solo de las tarjetas. Importan la topología, la refrigeración, la red, la CPU, la memoria y la forma en que el stack de software utiliza varias GPU.

También conviene tener en cuenta de antemano las desventajas de HGX:

  • alto coste de entrada;
  • requisitos serios para el rack y la alimentación;
  • alta densidad térmica;
  • dependencia de una configuración OEM concreta;
  • mantenimiento más complejo;
  • necesidad de diseñar la red y el software por separado;
  • menos libertad para una ampliación «gradual» frente a servidores PCIe sencillos.

HGX encaja bien cuando la empresa ya entiende sus cargas y está preparada para diseñar la infraestructura. Si la tarea todavía es experimental, el presupuesto es limitado y el equipo aún está seleccionando modelos, empezar con HGX puede ser prematuro.

Qué es DGX y en qué se diferencia de un servidor HGX

Sistema NVIDIA DGX H100 H200

Imagen del sistema DGX H100/H200 con panel frontal.

Fuente de la imagen: guía oficial de NVIDIA DGX H100/H200 System User Guide.

DGX es un sistema completo de NVIDIA para infraestructura de AI. A diferencia de HGX, que sirve como plataforma para servidores OEM, DGX se suministra como un producto terminado. El sistema ya incluye GPU, CPU, NVSwitch, memoria, almacenamiento, red, refrigeración, entorno de software y soporte.

Por ejemplo, la guía NVIDIA DGX H100/H200 indica configuraciones con 8 GPU H100 u 8 GPU H200, NVSwitch y un conjunto predeterminado de componentes: NVIDIA DGX H100/H200 User Guide. No es simplemente «un servidor con ocho tarjetas gráficas», sino una plataforma estandarizada para enterprise AI.

DGX se elige cuando importan:

  • puesta en marcha rápida de una gran infraestructura de AI;
  • soporte unificado;
  • configuración predecible;
  • stack de software listo;
  • reducción de riesgos de integración;
  • modelo de operación claro;
  • escalado dentro del ecosistema NVIDIA.

Para una gran empresa, DGX puede estar justificado si el coste de la inactividad, los retrasos del proyecto y los riesgos de incompatibilidad son mayores que el ahorro de montar el sistema por cuenta propia. Este enfoque es especialmente atractivo para equipos que necesitan no solo potencia de cómputo, sino una plataforma lista para desarrollar, entrenar y operar modelos.

Pero DGX no siempre es racional. Puede ser excesivo si:

  • se necesita un solo servidor para inferencia;
  • los modelos caben en una o dos GPU;
  • el equipo está preparado para mantener por sí mismo drivers, contenedores y monitorización;
  • ya existe experiencia operando servidores OEM;
  • el presupuesto es limitado;
  • la infraestructura del centro de datos no está preparada para esa densidad.

Es importante no confundir «el más potente» con «el más adecuado». DGX puede ser la mejor opción para una plataforma enterprise AI, pero una solución demasiado cara y poco flexible para inferencia aplicada, pruebas o un equipo ML pequeño.

Comparación de PCIe, SXM, HGX y DGX

Criterio Servidor GPU PCIe GPU SXM Servidor HGX Sistema DGX
Qué es Servidor con tarjetas GPU PCIe Formato de módulo GPU Plataforma NVIDIA para servidores OEM Sistema completo de NVIDIA
Nivel Tarjeta y configuración de servidor Módulo GPU Plataforma dentro del servidor Producto terminado
Densidad típica De 1 a varias GPU, según el servidor A menudo 4–8 GPU en sistemas densos Normalmente 4–8 GPU en sistemas OEM Configuración estandarizada de alta densidad
Conexión entre GPU PCIe, a veces puentes NVLink A menudo NVLink/NVSwitch NVLink/NVSwitch NVLink/NVSwitch y arquitectura de sistema lista
Flexibilidad Alta Menor Media Menor, pero con mayor estandarización
Coste de entrada Normalmente más bajo Más alto Alto Muy alto
Mantenimiento Más sencillo cambiar tarjetas individuales Depende de la plataforma Depende del OEM A través del ecosistema NVIDIA y sus partners
Cuándo elegir Inferencia, RAG, pruebas, tareas universales Cómputo denso Entrenamiento, HPC, 4–8 GPU Enterprise AI llave en mano

PCIe no es una «versión débil de HGX», sino otra clase de solución. Encaja mejor con tareas flexibles y presupuestos moderados. SXM/HGX se necesitan cuando importan la densidad y el intercambio entre GPU. DGX se necesita cuando la empresa compra no solo un servidor, sino una plataforma lista con soporte.

Cómo elegir la plataforma según la tarea

Inferencia con presupuesto limitado

Para inferencia, en la mayoría de los casos basta con un servidor PCIe. Especialmente si los modelos caben en una GPU y la carga se puede distribuir entre instancias independientes.

Una configuración adecuada puede incluir:

  • 1–2 GPU para el lanzamiento inicial;
  • 2–4 GPU para varios servicios;
  • suficiente memoria RAM;
  • unidades NVMe rápidas para modelos e índices;
  • interfaz de red acorde con el número de solicitudes;
  • margen normal de alimentación y refrigeración.

Para estas tareas no siempre hacen falta aceleradores de gama alta como H100 o H200. A veces es más racional elegir GPU más accesibles, por ejemplo NVIDIA L40S 48 GB para escenarios universales de AI y gráficos, u otras tarjetas PCIe con una cantidad adecuada de memoria de vídeo.

Servidor GPU universal para la empresa

Si el servidor no se necesita para un único modelo, sino como plataforma de cómputo común, PCIe sigue siendo la opción más flexible. Este servidor puede utilizarse para:

  • inferencia;
  • RAG;
  • pruebas de nuevos modelos;
  • analítica;
  • procesamiento de imágenes;
  • experimentos de ML;
  • servicios internos de varios equipos.

En este escenario no importa tanto la máxima densidad como el equilibrio. Conviene comprobar de antemano si se puede empezar con una o dos GPU y ampliar el servidor más adelante. Pero la ampliación debe ser real, no solo declarada en la ficha técnica: hacen falta ranuras libres, risers adecuados, potencia suficiente en las fuentes de alimentación y un flujo de aire correcto.

Entrenamiento de modelos grandes

Para entrenar modelos grandes, PCIe puede llegar rápidamente a sus límites. Si el modelo se distribuye entre varias GPU y hay intercambio constante de datos entre ellas, NVLink, NVSwitch y una topología densa son importantes.

En este caso se suele considerar SXM+HGX. Estos sistemas encajan mejor con:

  • entrenamiento de modelos desde cero;
  • fine-tuning de LLM;
  • tareas con gran número de parámetros;
  • HPC;
  • escenarios donde un proceso usa activamente 4–8 GPU.

En esta zona, la elección ya no puede basarse solo en el precio de una GPU. Hay que tener en cuenta cómo funciona todo el sistema bajo carga: CPU, memoria, red, almacenamiento local, refrigeración, drivers, contenedores, planificador de tareas y monitorización.

Sistema corporativo llave en mano

DGX debe considerarse si la empresa quiere obtener no simplemente un servidor, sino una plataforma de AI estandarizada. Es una opción para casos en los que importan:

  • soporte unificado;
  • arranque rápido;
  • arquitectura predecible;
  • reducción de riesgos de integración;
  • ruta de escalado clara;
  • preparación para grandes proyectos enterprise AI.

DGX rara vez es el primer paso óptimo para un equipo pequeño. Pero para una gran organización, donde el coste de retrasos y errores de integración supera el coste del equipo, este sistema puede estar justificado.

Elección de plataforma por escenario

Escenario Qué elegir Por qué Qué comprobar
1–2 modelos para inferencia PCIe Más barato y flexible Memoria de vídeo, refrigeración, consumo energético
Varios servicios AI internos PCIe 2–4 GPU Permite separar cargas Planificación de tareas, monitorización, margen de alimentación
RAG y servicios AI corporativos PCIe o HGX Depende del tamaño de los modelos RAM, NVMe, red, cantidad de memoria GPU
Fine-tuning de LLM SXM/HGX La conexión entre GPU es importante NVLink/NVSwitch, red entre nodos
Entrenamiento de modelos grandes HGX o DGX Se necesitan densidad y escalabilidad Centro de datos, alimentación, refrigeración
Enterprise AI llave en mano DGX Menos riesgos de integración Presupuesto, soporte, plazos de entrega
Renderizado, VDI, visualización PCIe No siempre se necesita NVSwitch Drivers, vGPU, licencias, compatibilidad

Esta tabla no sustituye el cálculo de la configuración, pero ayuda a descartar rápidamente opciones inadecuadas. Si la tarea no exige intercambio constante entre GPU, conviene empezar por PCIe. Si varias GPU deben funcionar como un único nodo de cómputo, hay que mirar hacia SXM/HGX. Si se necesita una plataforma corporativa lista, conviene evaluar DGX.

Qué comprobar antes de comprar un servidor GPU

Comprobación de alimentación y refrigeración de un servidor GPU

Un servidor GPU no se puede elegir solo por el nombre de la tarjeta gráfica. Especialmente si se trata de H100, H200, A100 o sistemas densos con varias GPU. Un error a nivel de rack, alimentación o refrigeración puede anular las ventajas de aceleradores caros.

Rack e instalación física

Antes de comprar, hay que comprobar:

  • altura del servidor;
  • profundidad del rack;
  • peso del equipo;
  • acceso frontal y trasero;
  • espacio para cables;
  • posibilidad de extraer y mantener el servidor de forma segura;
  • compatibilidad con raíles;
  • límites de carga del rack.

Los servidores GPU potentes suelen ser más pesados y profundos que los nodos de cómputo convencionales. Si el servidor no cabe físicamente en el rack o es incómodo de mantener, esto se convierte rápidamente en un problema operativo.

Alimentación

Hay que calcular de antemano no solo el consumo de las GPU, sino de todo el sistema:

  • CPU;
  • memoria;
  • unidades de almacenamiento;
  • tarjetas de red;
  • ventiladores;
  • controladores;
  • margen para picos de carga.

Por separado se comprueba:

  • potencia de las fuentes de alimentación;
  • esquema de redundancia;
  • tipos de cables;
  • PDU;
  • potencia disponible por rack;
  • requisitos del centro de datos;
  • posibilidad de ampliación futura.

Un servidor con varias GPU potentes puede consumir tanto que una sala de servidores de oficina o un rack no preparado no sean adecuados. Esto es especialmente importante para SXM/HGX y DGX.

Refrigeración

Las GPU generan mucho calor bajo carga prolongada. Una refrigeración insuficiente no solo aumenta el riesgo de fallo, sino que también reduce el rendimiento: los aceleradores pueden limitar sus frecuencias para no sobrecalentarse.

Hay que comprobar:

  • si se utiliza refrigeración por aire o líquida;
  • dirección del flujo de aire;
  • temperatura de entrada permitida;
  • densidad térmica por rack;
  • estado de los ventiladores;
  • presencia de tapas ciegas y conductos de aire correctos;
  • estado de radiadores y pads térmicos;
  • requisitos del fabricante sobre la colocación.

En servidores reacondicionados es importante revisar por separado el estado del sistema de refrigeración. Una buena GPU dentro de un circuito térmico deficiente no mostrará el rendimiento esperado.

Red

Si el servidor se usa solo para inferencia local, la red puede ser relativamente sencilla. Pero en entrenamiento, RAG, trabajo con grandes datasets y escalado a varios nodos, la red se vuelve crítica.

Antes de comprar, hay que entender:

  • si el servidor funcionará solo o en un clúster;
  • si se necesita red 100/200/400 GbE o InfiniBand;
  • dónde se almacenan los datasets;
  • con qué rapidez deben cargarse modelos y datos en el servidor;
  • cuántos usuarios o servicios accederán a las GPU;
  • si existen conmutadores adecuados;
  • si la red puede convertirse en el principal cuello de botella.

Una GPU inactiva cuesta tanto como una GPU trabajando. Si los datos no llegan al servidor a tiempo, la compra de aceleradores potentes no aporta el efecto esperado.

Software, drivers y gestión

El hardware es solo la mitad del proyecto. Hay que comprobar de antemano el entorno de software:

  • versiones de los drivers NVIDIA;
  • compatibilidad con CUDA;
  • soporte de contenedores;
  • Kubernetes, si se utiliza;
  • monitorización de GPU;
  • gestión de trabajos;
  • soporte de MIG o vGPU, si hay que dividir recursos;
  • actualizaciones de firmware;
  • compatibilidad con frameworks.

Por ejemplo, en un servidor universal usado por varios equipos puede ser importante dividir una GPU entre tareas. Entonces hay que entender de antemano si la tarjeta elegida admite MIG, cómo se organizará la planificación de tareas y quién se responsabilizará de la monitorización.

Para estos escenarios a menudo se considera NVIDIA A100 80 GB PCIe, porque puede ser interesante tanto para inferencia como para cargas AI más pesadas. Pero la idoneidad final depende de la plataforma, no solo del nombre de la GPU.

Garantía, entrega y ampliación

Los servidores GPU no se compran para un mes. Por eso es importante comprobar:

  • periodo de garantía;
  • quién realiza la reparación;
  • si hay sustitución de componentes;
  • si están disponibles GPU compatibles;
  • si se puede ampliar el servidor más adelante;
  • si habrá suficiente alimentación y refrigeración para la ampliación;
  • si existe margen en ranuras PCIe;
  • cuáles son los plazos de entrega de las tarjetas necesarias;
  • con qué rapidez puede sustituirse un componente averiado.

En el segmento reacondicionado esto es especialmente importante. El ahorro en la compra debe combinarse con una garantía clara, comprobación del equipo y una posibilidad real de mantenimiento.

Errores frecuentes al elegir PCIe, SXM, HGX y DGX

  1. Comparar PCIe, SXM, HGX y DGX como si fueran categorías iguales. Esto lleva a conclusiones incorrectas: por ejemplo, «DGX es mejor que PCIe», aunque en realidad se compara un sistema completo con un formato de conexión de GPU.
  2. Comprar el máximo número de GPU sin entender la carga. Si las tareas son independientes, varias GPU pueden usarse de forma eficiente incluso sin una topología compleja. Si la tarea es única y distribuida, una conexión débil entre GPU se convertirá en una limitación.
  3. Pensar que NVLink y NVSwitch siempre son necesarios. Para entrenar modelos grandes pueden ser críticos. Para servicios de inferencia separados, su importancia puede ser mucho menor.
  4. Considerar PCIe como una opción «débil». Un servidor PCIe puede ser una excelente elección para inferencia, RAG, pruebas, VDI, renderizado y tareas corporativas mixtas.
  5. Comprar SXM/HGX sin comprobar el centro de datos. Estos sistemas requieren alimentación, refrigeración, espacio, rack correcto y acceso de servicio. Si la infraestructura no está preparada, el servidor puede ser más difícil de operar de lo esperado.
  6. Olvidarse de la red. Para varias GPU dentro de un servidor importa la topología interna. Para varios servidores importa la red entre nodos. Sin ella, el clúster puede no revelar su rendimiento.
  7. Mirar solo el precio de la GPU. El coste total de propiedad incluye servidor, alimentación, refrigeración, red, soporte, reparación, inactividad, licencias y trabajo del equipo.
  8. Comprar DGX cuando basta con un servidor OEM PCIe. DGX es bueno como plataforma enterprise lista, pero para tareas pequeñas puede ser una solución demasiado cara.
  9. Comprar PCIe cuando se necesita una topología GPU densa. Si el modelo usa activamente 4–8 GPU como un único pool, conviene considerar SXM/HGX o DGX desde el principio.
  10. No tener en cuenta los requisitos futuros. Hoy puede bastar con una GPU, pero dentro de un año puede hacer falta más memoria, más ancho de banda de red u otra topología. Conviene entender de antemano dónde está el límite de crecimiento de la plataforma elegida.

Cómo elegir una plataforma GPU sin pagar de más

Hay que empezar no por el nombre de la GPU, sino por la tarea. La secuencia puede ser la siguiente:

  • Defina el tipo de carga: inferencia, entrenamiento, RAG, HPC, gráficos, VDI o tareas mixtas.
  • Compruebe si el modelo cabe en una sola GPU.
  • Evalúe si las GPU deben intercambiar datos constantemente.
  • Calcule la cantidad necesaria de memoria de vídeo.
  • Determine cuántos usuarios, servicios o equipos usarán el servidor.
  • Compruebe los requisitos de red y almacenamiento.
  • Evalúe las limitaciones de rack, alimentación y refrigeración.
  • Decida si es más importante la flexibilidad o un sistema estandarizado listo.
  • Compare el coste de compra y el coste total de propiedad.
  • Compruebe garantía, plazos de entrega y posibilidad de ampliación.

Después, la elección suele quedar más clara:

  1. PCIe — si se necesita flexibilidad, presupuesto moderado y un servidor universal;
  2. SXM/HGX — si se necesitan cómputos densos y conexión rápida entre varias GPU;
  3. DGX — si se necesita una plataforma enterprise lista, con soporte y mínimos riesgos de integración.

Para tareas universales en el segmento PCIe también se pueden considerar nuevas tarjetas de servidor como NVIDIA RTX PRO 6000 Blackwell Server Edition, si importan una gran memoria de vídeo, capacidades AI modernas y compatibilidad con escenarios de servidor. Pero también aquí la elección final depende de la carga, el chasis, la alimentación y la refrigeración.

Qué elegir en la mayoría de los casos

Para la mayoría de las empresas, el primer candidato será un servidor GPU PCIe. Es más flexible, accesible, sencillo de mantener y encaja mejor con inferencia, RAG, pruebas, analítica, gráficos y tareas mixtas. Esta opción es especialmente adecuada si la carga puede distribuirse entre GPU independientes y no requiere intercambio constante de datos entre todos los aceleradores.

SXM/HGX debe elegirse cuando la tarea ya ha superado las posibilidades de un servidor PCIe universal. Son escenarios con 4–8 GPU, entrenamiento de modelos grandes, HPC y alta densidad de cómputo. Aquí importan no solo las GPU, sino también NVLink, NVSwitch, refrigeración, alimentación, red y preparación del centro de datos.

DGX se justifica cuando la empresa quiere comprar no simplemente un servidor, sino una plataforma AI lista. Es una opción para escenarios enterprise donde importan estandarización, soporte, puesta en marcha rápida y reducción de riesgos de integración. Pero para equipos pequeños e inferencia aplicada, DGX a menudo será excesivo.

No existe una plataforma «mejor en general». Existe una plataforma adecuada para una carga, un presupuesto, unos plazos y una infraestructura concretos. Por eso, antes de comprar un servidor GPU conviene describir primero el escenario de uso, los requisitos de memoria de vídeo, el número de GPU, la red, la alimentación y la refrigeración. Esto ayuda a no pagar de más por un sistema excesivo y a no comprar un servidor que no pueda aprovechar el potencial de las GPU instaladas.


Comentarios
(0)
Sin comentarios
Escribir un comentario
Acepto el procesamiento de mis datos personales

SIGUIENTE ARTÍCULO

Sé el primero en enterarte de las nuevas publicaciones y gana 50 €