NVIDIA Groq 3 LPX

NVIDIA Vera Rubin을 위한 추론 가속기.

블로그 읽기

개요
성능
기술 혁신
시작하기

개요
성능
기술 혁신
시작하기

블로그 읽기

개요

속도와 확장성의 만남

과거 AI 추론 아키텍처는 처리량의 대가로 상호작용과 인텔리전스를 제공하거나, 상호작용의 대가로 처리량과 인텔리전스를 제공했습니다. 세 가지 모두를 가질 수 없습니다. 에이전틱 시스템은 더 많은 것을 요구합니다.

NVIDIA Groq 3 LPX는 NVIDIA Vera Rubin을 위한 추론 가속기로, 에이전틱 시스템의 저지연 및 대규모 컨텍스트 요구 사항을 충족하도록 설계되었습니다. Vera Rubin과 LPX는 공동 설계된 아키텍처를 통해 NVIDIA Rubin GPU와 LPU의 극한 성능을 결합합니다.

NVIDIA Vera Rubin, 에이전틱 AI의 새로운 지평을 열다

NVIDIA Vera Rubin 플랫폼에는 세계 최대 규모의 AI 팩토리를 확장하기 위해 양산 단계에 들어간 7개의 신규 칩이 포함되어 있습니다.

블로그 읽기

NVIDIA Groq 3 LPX 상세 분석: NVIDIA Vera Rubin 플랫폼의 7번째 칩

NVIDIA Groq 3 LPX는 실시간 추론 워크로드를 위해 NVIDIA Rubin GPU를 보완하는 결정론적 저지연 토큰 생성을 통해 AI 팩토리를 확장합니다.

기술 블로그 읽기

추론 성능

대규모 처리량을 갖춘 극히 낮은 지연 시간

고대역폭 메모리(HBM)를 위한 Rubin GPU와 정적 랜덤 액세스 메모리(SRAM)를 위한 LPU를 결합함으로써, LPX를 활용한 NVIDIA Vera Rubin은 1조 매개변수 모델 및 100만 토큰 컨텍스트를 위한 새로운 차원의 추론 성능을 제공합니다. Vera Rubin NVL72를 통해 배포된 Rubin GPU 및 LPU는 모든 출력 토큰에 대해 AI 모델의 모든 계층을 공동 계산하여 디코딩을 향상시킵니다.

1조 개의 매개변수 모델을 위한 35배 더 높은 처리량

에이전틱 시스템은 기존 AI 애플리케이션보다 최대 15배 더 많은 토큰을 소비합니다. AI 팩토리는 방대한 토큰 처리량과 거대한 컨텍스트 윈도우를 저지연과 효율적인 비용 구조로 동시에 충족해야 합니다. LPX와 결합할 때 Vera Rubin은 1조 매개변수 모델에서 메가와트당 최대 35배 더 높은 처리량을 제공합니다.

새로운 추론 범주: 10배 수익 기회

에이전트는 인텔리전스 단위이며 추론은 그들의 연료입니다. 실제 영향을 제공하기 위해, 에이전틱 시스템은 빠르고 스마트한 토큰이 필요합니다. LPX가 Vera Rubin과 결합되면 와트당 추가 처리량과 토큰 성능이 울트라 프리미엄 1조 매개변수 100만 개의 컨텍스트 추론의 새로운 계층을 열어, 모든 AI 공급업체의 수익 기회를 확장합니다.

1조 개의 매개변수 모델을 위한 35배 더 높은 처리량

에이전틱 시스템은 기존 AI 애플리케이션보다 최대 15배 더 많은 토큰을 소비합니다. 토큰 팩토리는 저지연 시간 및 효율적인 경제성을 갖춘 토큰 볼륨과 대규모 컨텍스트 창을 제공해야 합니다. LPX와 결합할 때 Vera Rubin은 1조 매개변수 모델에서 메가와트당 최대 35배 더 높은 처리량을 제공합니다.

새로운 추론 범주: 10배 수익 기회

에이전트는 인텔리전스 단위이며 추론은 그들의 연료입니다. 실제 가치를 제공하기 위해, 에이전틱 시스템은 더 빠르고 더 많은 컨텍스트를 포함하는 고가치 토큰이 필요합니다. LPX가 Vera Rubin과 결합되면 AI 팩토리는 대규모 프리미엄 토큰을 생산하여 와트당 수익을 10배 더 높일 수 있습니다.

NVIDIA Groq 3 LPU 추론 가속기

NVIDIA Groq 3 LPU는 Groq의 혁신적인 차세대 언어 처리 장치입니다. 각 LPX 랙은 256개의 상호 연결된 LPU 가속기를 갖추고 있으며, NVIDIA Vera Rubin 플랫폼과 함께 추론 기능을 강화합니다. 각 LPU 가속기는 500메가바이트(MB)의 SRAM, 초당 150테라바이트(TB/s)의 SRAM 대역폭 및 2.5TB/s 확장 대역폭을 제공합니다.