NVIDIA presenta la supercomputadora de IA Vera Rubin POD de 40 racks para cargas de trabajo de agentes
Iris Coleman 16 mar 2026 19:48
NVIDIA anuncia Vera Rubin POD con 1.152 GPUs en 40 racks, entregando 60 exaflops y un rendimiento de inferencia 10 veces mejor por vatio que Blackwell.
NVIDIA acaba de revelar las especificaciones de su proyecto de infraestructura de IA más ambicioso hasta la fecha. El Vera Rubin POD incluye 1.152 GPUs Rubin en 40 racks, entregando 60 exaflops de potencia de cómputo y 10 petabytes por segundo de ancho de banda total de escalado. Las unidades de producción se enviarán en la segunda mitad de 2026.
Los números aquí son asombrosos: 1,2 cuatrillones de transistores, casi 20.000 chips NVIDIA, todos diseñados para funcionar como una única supercomputadora coherente. NVIDIA afirma un rendimiento de entrenamiento 4 veces mejor y un rendimiento de inferencia 10 veces mejor por vatio en comparación con su arquitectura Blackwell actual, con costos de tokens reduciéndose a una décima parte de los niveles actuales.
Cinco sistemas de racks diseñados específicamente
El POD combina cinco sistemas distintos a escala de rack, cada uno dirigido a cuellos de botella específicos en las cargas de trabajo de IA modernas:
Vera Rubin NVL72 funciona como el motor de cómputo principal. Cada rack integra 72 GPUs Rubin y 36 CPUs Vera conectadas a través de NVLink 6, que impulsa 3,6 TB/s de ancho de banda por GPU, más ancho de banda total que toda la internet global, según NVIDIA. El sistema se dirige a las cuatro leyes de escalado de IA: preentrenamiento, post-entrenamiento, escalado en tiempo de prueba y escalado de agentes.
Racks Groq 3 LPX abordan el problema de latencia. Con 256 unidades de procesamiento de lenguaje por rack usando arquitectura exclusivamente SRAM, estos se emparejan con NVL72 para entregar lo que NVIDIA afirma son 35 veces más tokens y 10 veces más oportunidad de ingresos para modelos de billones de parámetros versus Blackwell.
Racks de CPU Vera proporcionan entornos de prueba para testing de agentes. Un solo rack sostiene más de 22.500 entornos de aprendizaje por refuerzo concurrentes, crítico para validar salidas de IA de agentes antes del despliegue.
Racks BlueField-4 STX introducen lo que NVIDIA llama "almacenamiento nativo de IA" a través de la plataforma de memoria de contexto CMX. Al descargar el caché KV a almacenamiento dedicado de alto ancho de banda, el sistema afirma 5 veces más tokens por segundo y 5 veces mejor eficiencia energética que los enfoques tradicionales.
Racks de red Spectrum-6 SPX conectan todo con switches de 102,4 Tb/s con ópticas coempaquetadas.
El argumento de la economía de tokens
NVIDIA enmarca esto en torno a una realidad de mercado específica: el consumo de tokens ahora supera los 10 cuatrillones anuales, y el cambio de interacciones humano-IA a IA-IA acelerará ese crecimiento dramáticamente. Los sistemas de agentes modernos generan volúmenes masivos de tokens de razonamiento mientras expanden los requisitos de caché KV, exactamente el cuello de botella que esta arquitectura ataca.
Los benchmarks InferenceMax de SemiAnalysis de terceros citados por NVIDIA muestran que los sistemas Blackwell actuales ya entregan 50 veces mejor rendimiento por vatio y 35 veces menor costo por token en comparación con H200. Vera Rubin busca extender esa ventaja.
Ingeniería térmica y de potencia
La arquitectura de rack MGX de tercera generación introduce suavizado inteligente de potencia con 6 veces más almacenamiento de energía a nivel de rack (400 julios por GPU) que las generaciones anteriores. Esto reduce las demandas de corriente pico hasta en un 25% y elimina la necesidad de paquetes masivos de baterías.
Todos los racks operan a temperaturas de entrada de agua caliente de 45°C, permitiendo que los centros de datos en muchos climas usen refrigeración por aire ambiente. NVIDIA afirma que esto libera suficiente potencia para agregar 10% más racks en el mismo presupuesto de potencia de la instalación.
Mirando hacia adelante
Más allá de la configuración inicial del POD, NVIDIA presentó una vista previa de Vera Rubin Ultra NVL576 escalando a 576 GPUs en ocho racks, y la arquitectura Kyber de próxima generación dirigida a NVL1152 con 144 GPUs por rack. La hoja de ruta sugiere que NVIDIA ve los dominios NVLink multi-rack como el futuro de la infraestructura de IA, no solo GPUs más grandes, sino arquitecturas de sistema fundamentalmente diferentes.
Para empresas que planean inversiones en infraestructura de IA, el mensaje es claro: la economía del cómputo de IA está cambiando de optimización a nivel de chip a nivel de instalación. Aquellos que construyen centros de datos ahora enfrentan una elección entre sistemas de generación actual y esperar la disponibilidad de Vera Rubin a finales de 2026.
Fuente de imagen: Shutterstock- nvidia
- infraestructura de IA
- vera rubin
- centros de datos
- IA empresarial


