La nueva receta FP8 de NVIDIA para aprendizaje por refuerzo ofrece un entrenamiento 48% más rápido manteniendo la precisión de BF16, reduciendo significativamente los costos de infraestructura de IA. (ReadLa nueva receta FP8 de NVIDIA para aprendizaje por refuerzo ofrece un entrenamiento 48% más rápido manteniendo la precisión de BF16, reduciendo significativamente los costos de infraestructura de IA. (Read

NVIDIA NeMo RL Logra una Aceleración del 48% con Entrenamiento de Precisión FP8 de Extremo a Extremo

2026/04/21 07:41
Lectura de 4 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

NVIDIA NeMo RL logra una aceleración del 48% con entrenamiento de precisión FP8 de extremo a extremo

Jessie A Ellis 20 abr 2026 23:41

La nueva receta FP8 de NVIDIA para aprendizaje por refuerzo ofrece un entrenamiento 48% más rápido mientras iguala la precisión de BF16, reduciendo significativamente los costos de infraestructura de IA.

NVIDIA NeMo RL logra una aceleración del 48% con entrenamiento de precisión FP8 de extremo a extremo

NVIDIA ha lanzado una receta integral de precisión FP8 para aprendizaje por refuerzo que ofrece hasta un 48% más de rendimiento de entrenamiento mientras mantiene la paridad de precisión con los enfoques tradicionales de BF16, un desarrollo con implicaciones significativas para los costos de infraestructura de IA y la economía de computación GPU.

La técnica, detallada en una publicación de blog técnica de Guyue Huang de NVIDIA, aborda uno de los problemas más espinosos del entrenamiento RL: la discrepancia numérica entre las fases de generación y entrenamiento al usar diferentes niveles de precisión en motores separados.

El avance técnico

Los pipelines tradicionales de RL utilizan vLLM para rollouts y Megatron Core para entrenamiento, cada uno con kernels CUDA únicos que introducen diferencias numéricas acumulativas. Estas discrepancias se magnifican en niveles de precisión más bajos, limitando históricamente la adopción de FP8.

¿La solución de NVIDIA? Aplicar FP8 de manera consistente tanto en la generación como en el entrenamiento en lugar de mezclar niveles de precisión. Las pruebas en Llama 3.1 8B Instruct mostraron una precisión de validación de 0.613 con FP8 de extremo a extremo versus 0.616 para BF16, cerrando efectivamente la brecha. Mientras tanto, usar FP8 solo para generación redujo la precisión a 0.586.

La receta utiliza FP8 cuantizado por bloques (formato E4M3) con granularidad de 128x128 para pesos y 1x128 para activaciones. Las capas lineales ejecutan matemáticas FP8 con un rendimiento máximo teórico de 2x versus BF16, mientras que las funciones de atención, normalización y no lineales permanecen en BF16.

Ganancias de rendimiento en el mundo real

Solo para las capas lineales, la receta FP8 ofrece mejoras de rendimiento consistentes del 15-25%. La brecha entre la aceleración teórica de 2x y las ganancias reales proviene de que las capas de atención permanecen en BF16 más la sobrecarga del kernel de cuantización.

Extender FP8 al caché KV y las operaciones de atención impulsa la aceleración total a aproximadamente 48% sobre las líneas base de BF16. El inconveniente: los pesos de política de RL que se actualizan constantemente requieren recalibración dinámica de las escalas de cuantización después de cada paso de entrenamiento. El enfoque de NVIDIA agrega aproximadamente un 2-3% de sobrecarga para esta recalibración, un costo menor para una aceleración sustancial.

Las pruebas en Qwen3-30B (un modelo mixture-of-experts) mostraron curvas de precisión coincidentes entre las configuraciones de FP8 y BF16, lo que sugiere que la técnica escala entre arquitecturas.

Por qué esto es importante para la economía de la IA

El entrenamiento RL para modelos capaces de razonamiento como los que están detrás de asistentes de IA avanzados requiere una computación masiva. Una aceleración del 48% se traduce directamente en horas-GPU reducidas y facturas de electricidad más bajas para las organizaciones que entrenan estos sistemas.

La técnica de muestreo de importancia que permite la preservación de la precisión podría resultar igualmente valiosa. Al corregir desajustes de distribución entre los modelos de generación y entrenamiento por token, permite una reducción agresiva de la precisión sin sacrificar la calidad del modelo.

La implementación completa está disponible en la biblioteca de código abierto NeMo RL de NVIDIA, con recetas preconfiguradas para los modelos Llama 3.1 8B y Moonlight 16B. Los usuarios avanzados pueden ajustar el enfoque, manteniendo capas transformer específicas en BF16 o cambiando a factores de escala de potencia de 2 para optimización adicional.

Para los operadores de infraestructura de IA que observan cómo los costos de computación aumentan junto con la complejidad del modelo, esto representa una palanca de eficiencia significativa que no requiere actualizaciones de hardware, solo un uso más inteligente de las capacidades existentes de H100.

Fuente de la imagen: Shutterstock
  • nvidia
  • entrenamiento de IA
  • precisión fp8
  • aprendizaje automático
  • nemo rl
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

Génesis USD1: tarifa 0 + 12% APR

Génesis USD1: tarifa 0 + 12% APRGénesis USD1: tarifa 0 + 12% APR

Nuevos usuarios: ¡stakea y gana hasta 600% de APR!