NVIDIA Vera Rubin을 위한 추론 가속기.
개요
과거 AI 추론 아키텍처는 처리량의 대가로 상호작용과 인텔리전스를 제공하거나, 상호작용의 대가로 처리량과 인텔리전스를 제공했습니다. 세 가지 모두를 가질 수 없습니다. 에이전틱 시스템은 더 많은 것을 요구합니다.
NVIDIA Groq 3 LPX는 NVIDIA Vera Rubin을 위한 추론 가속기로, 에이전틱 시스템의 저지연 및 대규모 컨텍스트 요구 사항을 충족하도록 설계되었습니다. Vera Rubin과 LPX는 공동 설계된 아키텍처를 통해 NVIDIA Rubin GPU와 LPU의 극한 성능을 결합합니다.
추론 성능
고대역폭 메모리(HBM)를 위한 Rubin GPU와 정적 랜덤 액세스 메모리(SRAM)를 위한 LPU를 결합함으로써, LPX를 활용한 NVIDIA Vera Rubin은 1조 매개변수 모델 및 100만 토큰 컨텍스트를 위한 새로운 차원의 추론 성능을 제공합니다. Vera Rubin NVL72를 통해 배포된 Rubin GPU 및 LPU는 모든 출력 토큰에 대해 AI 모델의 모든 계층을 공동 계산하여 디코딩을 향상시킵니다.
에이전틱 시스템은 기존 AI 애플리케이션보다 최대 15배 더 많은 토큰을 소비합니다. AI 팩토리는 방대한 토큰 처리량과 거대한 컨텍스트 윈도우를 저지연과 효율적인 비용 구조로 동시에 충족해야 합니다. LPX와 결합할 때 Vera Rubin은 1조 매개변수 모델에서 메가와트당 최대 35배 더 높은 처리량을 제공합니다.
에이전트는 인텔리전스 단위이며 추론은 그들의 연료입니다. 실제 영향을 제공하기 위해, 에이전틱 시스템은 빠르고 스마트한 토큰이 필요합니다. LPX가 Vera Rubin과 결합되면 와트당 추가 처리량과 토큰 성능이 울트라 프리미엄 1조 매개변수 100만 개의 컨텍스트 추론의 새로운 계층을 열어, 모든 AI 공급업체의 수익 기회를 확장합니다.
NVIDIA Groq 3 LPU는 Groq의 혁신적인 차세대 언어 처리 장치입니다. 각 LPX 랙은 256개의 상호 연결된 LPU 가속기를 갖추고 있으며, NVIDIA Vera Rubin 플랫폼과 함께 추론 기능을 강화합니다. 각 LPU 가속기는 500메가바이트(MB)의 SRAM, 초당 150테라바이트(TB/s)의 SRAM 대역폭 및 2.5TB/s 확장 대역폭을 제공합니다.
기술 혁신
극한의 공동 설계를 통해 구축된 NVIDIA Vera Rubin NVL72는 7개의 특수 칩을 단일 AI 슈퍼컴퓨터로 통합합니다.
하나의 LPX 랙에서 256개의 LPU 칩이 결합되어 극한의 성능을 제공합니다.
각 랙에서 LPX는 저지연 처리를 위한 128GB의 SRAM과 대규모 모델 및 워크로드를 위한 12TB의 DDR5 메모리를 제공합니다.
랙당 초당 40페타바이트(PB/s)의 SRAM 대역폭은 짧은 지연 시간을 제공합니다.
직접 칩 간 링크는 저지연 칩 통신을 위해 LPX 랙 전반에 걸쳐 640TB/s의 대규모 확장 대역폭을 제공합니다.
NVL72에 대한 LPX의 고속 연결은 지연 시간을 0에 가까운 수준으로 줄입니다.
LPX는 NVIDIA MGX™ 추출, 변환 및 로드(ETL) 랙을 활용하여 토큰 팩토리가 NVIDIA Vera Rubin 플랫폼 배포 시 단일 범용 랙을 기준으로 계획할 수 있도록 지원합니다.
NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.