Nvidia annuncia la GPU H200: 141GB di HBM3e e una larghezza di banda di 4.8 TB/s
Alimentando la prossima generazione di supercomputer AI exascale
Nvidia ha annunciato la linea di prodotti H200 e GH200, i chip più potenti mai creati dall'azienda, che alimentano la prossima generazione di supercomputer AI esascale. Il nuovo H200 GPU offre un aumento significativo della capacità di memoria e della larghezza di banda rispetto al suo predecessore, l'H100. Mentre le prestazioni di calcolo grezze sembrano essere rimaste simili, l'H200 offre un miglioramento del 76% nella capacità di memoria e del 43% nella larghezza di banda rispetto all'H100 SXM. Nvidia prevede che oltre 200 exaflop di prestazioni di calcolo AI saranno disponibili entro il prossimo anno grazie a questi nuovi supercomputer.
Nvidia ha annunciato oggi la linea di prodotti H200 e GH200 al Supercomputing 23. Si tratta dei chip più potenti mai creati da Nvidia, che si basano sull'architettura Hopper H100 esistente ma con l'aggiunta di più memoria e più potenza di calcolo. Questi chip sono destinati a alimentare la futura generazione di supercomputer AI, con oltre 200 exaflops di potenza di calcolo AI che verranno attivati nel corso del 2024. Scopriamo i dettagli.
La GPU H200 è forse la vera protagonista dello spettacolo. Nvidia non ha fornito una panoramica dettagliata di tutte le specifiche, ma sembra che il punto principale sia un significativo aumento della capacità di memoria e della larghezza di banda per GPU.
La H200 aggiornata offre un totale di 141GB di memoria HBM3e, con una velocità effettiva di circa 6.25 Gbps, per una larghezza di banda totale di 4.8 TB/s per GPU attraverso le sei stack di HBM3e. Questo rappresenta un notevole miglioramento rispetto all'H100 originale, che aveva 80GB di HBM3 e una larghezza di banda di 3.35 TB/s. Alcune configurazioni dell'H100 offrivano più memoria, come l'H100 NVL che accoppiava due schede e forniva un totale di 188GB di memoria (94GB per GPU), ma rispetto alla variante H100 SXM, la nuova H200 SXM offre una capacità di memoria superiore del 76% e una larghezza di banda superiore del 43%.
Si noti che le prestazioni di calcolo grezze sembrano non essere cambiate molto. L'unica grafica mostrata da Nvidia per il calcolo utilizzava una configurazione HGX 200 a otto GPU con '32 PFLOPS FP8' come prestazione totale. L'H100 originale offriva 3.958 teraflops di FP8, quindi otto di queste GPU fornivano già circa 32 petaflops di FP8.
Quanto più veloce sarà l'H200 rispetto all'H100? Questo dipenderà dal carico di lavoro. Per LLM come GPT-3, che traggono grandi vantaggi dall'aumento della capacità di memoria, Nvidia afferma una performance fino a 18 volte superiore rispetto all'A100 originale, mentre l'H100 è solo circa 11 volte più veloce. C'è anche un accenno al prossimo Blackwell B100, anche se al momento si tratta solo di una barra più alta che svanisce nel nero.
Naturalmente, questo non è solo un annuncio della GPU H200 aggiornata. C'è anche un nuovo GH200 in arrivo, che combina la GPU H200 con la CPU Grace. Ogni 'superchip' GH200 conterrà un totale di 624GB di memoria. L'GH100 originale combinava 480GB di memoria LPDDR5x per la CPU con 96GB di memoria HBM3, mentre la nuova iterazione utilizza i 144GB di HBM3e precedentemente discussi.
Anche in questo caso, i dettagli sulle eventuali altre modifiche del lato CPU sono scarsi, ma Nvidia ha fornito alcuni confronti tra GH200 e una configurazione 'dual-socket x86' moderna - prendere con molta cautela, dato che è stata menzionata l'accelerazione rispetto ai 'sistemi non accelerati'.
Cosa significa? Possiamo solo presumere che i server x86 stessero eseguendo codice meno ottimizzato, soprattutto considerando che il mondo dell'IA è in rapido movimento e sembrano esserci nuovi progressi nell'ottimizzazione su base regolare.
L'GH200 sarà utilizzato anche nei nuovi sistemi HGX H200. Si dice che siano 'compatibili in modo trasparente' con i sistemi HGX H100 esistenti, il che significa che l'HGX H200 può essere utilizzato nelle stesse installazioni per aumentare le prestazioni e la capacità di memoria senza dover riprogettare l'infrastruttura - il che solleva l'ultimo dibattito sui nuovi supercomputer che saranno alimentati da GH200.
Il supercomputer Alps del Swiss National Supercomputing Center sarà probabilmente uno dei primi supercomputer Grace Hopper ad essere attivato nel prossimo anno. Attualmente utilizza GH100. Il primo sistema GH200 ad andare in funzione negli Stati Uniti sarà il supercomputer Venado del Los Alamos National Laboratory. Anche il sistema Vista del Texas Advanced Computing Center (TACC) utilizzerà le CPU Grace e i superchip Grace Hopper, che è stato annunciato oggi, ma non è chiaro se si tratti di H100 o H200.
L'installazione più grande in arrivo, per quanto ne sappiamo, è il supercomputer Jupiter del Jülich Supercomputing Centre. Alloggerà 'quasi' 24.000 superchip GH200, con una potenza di calcolo AI combinata di 93 exaflops (presumibilmente utilizzando i numeri FP8, anche se la maggior parte dell'IA utilizza ancora BF16 o FP16 secondo la nostra esperienza). Fornirà anche 1 exaflop di calcolo FP64 tradizionale. Utilizza schede 'quad GH200' che presentano quattro superchip GH200.
In totale, Nvidia prevede che oltre 200 exaflops di potenza di calcolo AI verranno attivati nel prossimo anno circa con queste nuove installazioni di supercomputer. È possibile visualizzare l'intera presentazione di Nvidia di seguito.