NVIDIA Groq 3 LPX

El acelerador de inferencia para NVIDIA Vera Rubin.

Descripción General

La velocidad se une a la escala

En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a costa del rendimiento, o rendimiento e inteligencia a costa de la interactividad. No era posible tener las tres cosas. Los sistemas de agentes exigen más.

NVIDIA Groq 3 LPX es el acelerador de inferencia para NVIDIA Vera Rubin, diseñado para cumplir con las demandas de baja latencia y contexto grande de los sistemas agénticos. Vera Rubin y LPX unen el desempeño extremo de las GPU y LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.

NVIDIA Vera Rubin Abre la Frontera de la IA de Agentes

La plataforma NVIDIA Vera Rubin incluye siete chips nuevos en plena producción para escalar las fábricas de IA más grandes del mundo.

Dentro de NVIDIA Groq 3 LPX: El Séptimo Chip de la Plataforma NVIDIA Vera Rubin

NVIDIA Groq 3 LPX extiende la fábrica de IA con una generación de tokens deterministas y de baja latencia que complementa las GPU NVIDIA Rubin para cargas de trabajo de inferencia en tiempo real.

Rendimiento de inferencia

Latencia Extremadamente Baja con Desempeño Masivo

Al combinar las GPU Rubin para memoria de alto ancho de banda (HBM) y LPU para memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de desempeño de inferencia para modelos de billones de parámetros y un contexto de millones de tokens. Las GPU y las LPU Rubin, implementadas con Vera Rubin NVL72, impulsan la decodificación al computar conjuntamente cada capa del modelo de IA para cada token de resultado.

Rendimiento 35 Veces Mayor para Modelos de Billones de Parámetros

Los sistemas de agentes consumen hasta 15 veces más tokens que las aplicaciones de IA tradicionales. Las fábricas de IA deben ofrecer un volumen de tokens y ventanas contextuales masivas con baja latencia y economía eficiente. Cuando se combina con LPX, Vera Rubin ofrece un rendimiento por megavatio hasta 35 veces mayor para modelos de billones de parámetros.

Una Nueva Categoría de Inferencia: Oportunidad de Ingresos 10 Veces Mayor

Los agentes son unidades de inteligencia y la inferencia es su combustible. Para ofrecer un impacto en el mundo real, los sistemas basados en agentes necesitan tokens rápidos e inteligentes. Cuando LPX se combina con Vera Rubin, el rendimiento adicional por vatio y el desempeño del token abren un nuevo nivel de inferencia ultraprémium de billones de parámetros y contexto de un millón, lo que expande las oportunidades de ingresos para todos los proveedores de IA.

Rendimiento 35 Veces Mayor para Modelos de Billones de Parámetros

Los sistemas de agentes consumen hasta 15 veces más tokens que las aplicaciones de IA tradicionales. Las fábricas de tokens deben ofrecer un volumen de tokens y ventanas contextuales masivas con baja latencia y economía eficiente. Cuando se combina con LPX, Vera Rubin ofrece un rendimiento por megavatio hasta 35 veces mayor para modelos de billones de parámetros.

Una Nueva Categoría de Inferencia: Oportunidad de Ingresos 10 Veces Mayor

Los agentes son unidades de inteligencia y la inferencia es su combustible. Para ofrecer valor del mundo real, los sistemas agénticos necesitan tokens de alto valor que sean más rápidos y contengan más contexto. Cuando LPX se combina con Vera Rubin, las fábricas de IA pueden producir tokens prémium a escala, lo que genera diez veces más ingresos por vatio.

Acelerador de Inferencia LPU NVIDIA Groq 3

La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento de lenguaje de Groq. Cada bastidor LPX cuenta con 256 aceleradores de LPU interconectados que, junto con la plataforma NVIDIA Vera Rubin, potencian la inferencia. Cada acelerador de LPU ofrece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda SRAM y 2.5 TB/s de ancho de banda de escalabilidad.

Acelerador de Inferencia LPU NVIDIA Groq 3

La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento de lenguaje de Groq. Cada bastidor LPX cuenta con 256 aceleradores de LPU interconectados que, junto con la plataforma NVIDIA Vera Rubin, potencian la inferencia. Cada acelerador de LPU ofrece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda SRAM y 2.5 TB/s de ancho de banda de escalabilidad.

Avances Tecnológicos

Diseño Conjunto Extremo Resultados Extraordinarios.

NVIDIA Vera Rubin NVL72, que se desarrolló mediante un diseño conjunto extremo, unifica siete chips diseñados específicamente en una sola supercomputadora de IA.

Escala de Bastidor

En un bastidor LPX, 256 chips LPU se unen para ofrecer un desempeño extremo.

Arquitectura de Memoria de Fusión

En cada bastidor, LPX ofrece 128 GB de SRAM para procesamiento de baja latencia y 12 TB de memoria DDR5 para grandes modelos y cargas de trabajo.

SRAM de Alta Velocidad

40 petabytes por segundo (PB/s) de ancho de banda SRAM por bastidor ofrecen baja latencia.

Ancho de Banda de Escalabilidad Masiva

Los enlaces directos de chip a chip ofrecen 640 TB/s de ancho de banda de escalabilidad en todo el bastidor LPX para la comunicación con chips de baja latencia.

Conexión de Alta Velocidad con NVIDIA NVL72

Las conexiones de alta velocidad de LPX a NVL72 reducen la latencia a casi cero.

Bastidor NVIDIA MGX ETL

LPX aprovecha el bastidor NVIDIA MGX™ para extraer, transformar y cargar (ETL), lo que permite a las fábricas de tokens planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.

Comenzar

Manténgase al Día con las Noticias de NVIDIA

Regístrese para recibir las últimas noticias, actualizaciones y más información de NVIDIA.