Nvidia lancia Rubin CPX, la nuova GPU per potenziare l'AI inference
Rubin CPX sfrutta la memoria GDDR7 per ridurre costi e consumi nell'AI inference.
Nvidia ha presentato la sua nuova GPU Rubin CPX, progettata per migliorare l'infrastruttura di AI inference. Questa soluzione si propone di ottimizzare l'uso delle risorse hardware, riducendo i costi e il consumo energetico grazie all'utilizzo della memoria GDDR7, meno costosa e meno esigente dal punto di vista del raffreddamento rispetto alle tradizionali memorie HBM.
La Rubin CPX è dotata di 128GB di memoria GDDR7 e offre fino a 30 NVFP4 PetaFLOPS di potenza di calcolo. Questo la rende particolarmente adatta per la fase di context dell'inference, che richiede elevata capacità computazionale per elaborare grandi volumi di dati in ingresso.
Nvidia ha integrato il supporto per la nuova GPU all'interno del suo ecosistema AI, compresi CUDA e altri strumenti necessari per soluzioni AI di livello professionale. Importante è anche l'orchestrazione tramite Dynamo, che gestisce la suddivisione delle fasi di inference tra differenti GPU, ottimizzando le prestazioni e la latenza.
Oltre ai benefici economici, secondo Nvidia, l'adozione di Rubin CPX potrebbe portare a un significativo ritorno sull'investimento, stimato fino a 50 volte il capitale iniziale. Il sistema completo Vera Rubin NVL144 CPX, che integra queste nuove GPU, sarà disponibile entro la fine del 2026, promettendo di rivoluzionare le applicazioni AI grazie alla capacità di gestire carichi di lavoro complessi.
Cosa rende la GPU Rubin CPX di NVIDIA adatta all'inferenza AI su larga scala?
La GPU Rubin CPX è progettata per gestire modelli AI con contesti estesi, offrendo 30 PetaFLOPS di potenza di calcolo NVFP4 e 128 GB di memoria GDDR7. Questa combinazione consente di elaborare milioni di token in applicazioni come la generazione video e la codifica software.
Quali sono i vantaggi dell'utilizzo della memoria GDDR7 nella Rubin CPX rispetto alla HBM?
La memoria GDDR7 offre un equilibrio tra capacità e costo, risultando meno costosa e meno esigente in termini di raffreddamento rispetto alla HBM. Questo la rende ideale per la fase di 'contesto' dell'inferenza AI, che richiede elevate capacità computazionali senza necessità di larghezza di banda estremamente alta.
In che modo la Rubin CPX si integra nell'ecosistema AI di NVIDIA?
La Rubin CPX è supportata dall'intero stack AI di NVIDIA, inclusi CUDA e strumenti professionali. Inoltre, l'orchestrazione tramite Dynamo gestisce la suddivisione delle fasi di inferenza tra diverse GPU, ottimizzando prestazioni e latenza.
Qual è il ruolo della Rubin CPX nella nuova architettura di inferenza disaggregata di NVIDIA?
Nella nuova architettura di inferenza disaggregata, la Rubin CPX è ottimizzata per la fase di 'contesto' dell'inferenza, mentre le GPU Rubin standard si concentrano sulla fase 'generativa'. Questa suddivisione consente di massimizzare le prestazioni distribuendo i carichi di lavoro in modo più efficiente.
Quali sono le specifiche principali del sistema Vera Rubin NVL144 CPX?
Il sistema Vera Rubin NVL144 CPX integra 144 GPU Rubin, 144 GPU Rubin CPX e 36 CPU Vera, offrendo complessivamente 8 ExaFLOPS di potenza di calcolo, 100 TB di memoria ad alta velocità e 1,7 PB/s di larghezza di banda.
Quali sono le implicazioni economiche dell'adozione della Rubin CPX per le aziende?
Secondo NVIDIA, l'adozione della Rubin CPX potrebbe portare a un ritorno sull'investimento fino a 50 volte il capitale iniziale, grazie all'efficienza e alle prestazioni offerte nella gestione di carichi di lavoro AI complessi.