Il supercomputer Aurora con processore Intel non riesce a spodestare il Frontier con processore AMD nella lista Top500, rivendica il titolo di supercomputer AI più veloce con il benchmark HPL-MxP
Aurora affronta problemi di stabilità dovuti a guasti hardware, malfunzionamenti del sistema di raffreddamento e errori operativi.
Il supercomputer Aurora con processore Intel non riesce a scalzare il Frontier con processore AMD nella lista Top500, ma si posiziona come il supercomputer AI più veloce nel benchmark HPL-MxP. Aurora presenta problemi di stabilità legati a guasti hardware, malfunzionamenti di raffreddamento e errori operativi. Nonostante sia al secondo posto nella classifica Top500, Aurora ha ottenuto il primo posto nel benchmark AI HPL-MxP, confermando la sua potenza con 10,6 Exaflops di performance.
Il supercomputer Aurora, alimentato da Intel, non è riuscito a conquistare il primo posto dal Frontier, alimentato da AMD, il supercomputer n. 1 nella lista Top500, ma ha ottenuto il secondo posto. Tuttavia, Aurora ha conquistato il primo posto nel benchmark HPL-MxP a precisione mista centrato sull'IA, consentendo a Intel di rivendicare il titolo di alimentare il supercomputer AI più veloce al mondo con una performance di 10,6 AI Exaflops.
È importante notare che Aurora non è ancora completamente operativo, quindi l'intero sistema non è stato utilizzato per nessuna delle presentazioni dei benchmark. Aurora rimane afflitto da numerosi problemi hardware come guasti hardware e del sistema di raffreddamento, errori operativi e instabilità di rete, tra gli altri (dettagli nell'ultima sezione qui sotto). I continui problemi sono un po' sorprendenti: il sistema è stato annunciato per la prima volta nove anni fa, la seconda revisione è stata annunciata cinque anni fa (la prima versione è stata cancellata) e i componenti finali sono stati installati undici mesi fa.
Il sistema ospita 21.248 CPU e 63.744 GPU distribuite su 10.624 blade di calcolo, ma il Laboratorio Nazionale di Argonne (ANL), che ospita il sistema, non è riuscito a presentare una completa esecuzione di Linpack per la lista Top500.
Invece, Aurora si è classificato al secondo posto con 1,012 Exaflops, superando la barriera dell'Exaflop con l'87% del sistema attivo (9.234 dei 10.624 nodi totali). Questo consolida la posizione al secondo posto di Aurora. La prima presentazione di Aurora (con solo metà del sistema) ha ottenuto anche il secondo posto, raggiungendo 585,34 petaflops sei mesi fa.
Aurora dovrebbe essere più veloce del Frontier nel benchmark High-Performance Linpack (HP) e quindi conquistare il primo posto nella Top500 al completamento, ma è evidente che il sistema avrà bisogno di ulteriori regolazioni per mantenere le aspettative.
Intel ha esaltato la performance di picco teorica di Aurora di 2 exaflops (Rpeak), ma i supercomputer sono misurati dalla performance sostenuta (Rmax). Frontier fornisce il 70% della sua performance di picco come performance sostenuta in Linpack, mentre Aurora fornisce solo il 51% della sua performance di picco. Questo dovrebbe migliorare nel tempo e Aurora conquisterebbe facilmente il primo posto se fornisse una performance sostenuta simile al 70% della sua performance di picco (~1,4 exaflops) durante carichi di lavoro sostenuti.
Ho chiesto ad ANL se ci si aspetta che Aurora superi il Frontier nella Top500 al completamento. 'C'è un obiettivo contrattuale che è più veloce del Frontier', ha risposto un rappresentante. 'Quindi, se riusciamo a raggiungere quel numero, saremo più veloci del Frontier.' Va notato che la dichiarazione dice che Aurora dovrebbe battere il Frontier, non che lo farà. Abbiamo fatto seguito per una conferma definitiva del vero obiettivo di performance.
Aurora ha conquistato il primo posto nel benchmark HPL-MxP a precisione mista con 10,6 exaflops di performance AI con solo l'89% del sistema Aurora attivo. Questo benchmark dà priorità a precisioni inferiori (FP32 e inferiori, persino FP16) rispetto all'FP64 utilizzato per il benchmark Linpack utilizzato per la classifica Top500. Pertanto, questo benchmark rappresenta meglio i carichi di lavoro dell'IA e un numero crescente di altre applicazioni del mondo reale. L'FP64 è in gran parte relegato al calcolo scientifico tradizionale, e alcuni sostengono che sia una parte in diminuzione di quel segmento, anche.
HPL-MxP sta diventando molto più importante per modellare la performance del mondo reale nell'era dell'IA, ma la posizione di Aurora al vertice sarà fortemente contestata.
Non c'è ancora stata una presentazione da parte di un sistema Nvidia Grace-Hopper su larga scala alla classifica. Il supercomputer Alps, che ora promette 20 exaflops di performance AI, dovrebbe avere tutti i suoi 10.752 processori Grace Hopper installati entro la fine di giugno 2024, quindi la competizione per il primo posto è in arrivo.
Il benchmark High Performance Conjugate Gradients (HPCG) è progettato per essere più rappresentativo delle applicazioni di carico di lavoro reali rispetto a Linpack.
Aurora si è comportata in modo impressionante anche in questo benchmark, ottenendo il terzo posto con solo il 38,5% del supercomputer attivo. Aurora ha anche conquistato il quinto posto nel benchmark Graph500, progettato per misurare le performance nelle applicazioni ad alta intensità di dati, ma ANL non ha specificato quanto del sistema fosse attivo per questa esecuzione del benchmark.
Aurora non si è classificata nella Green500, una lista dei supercomputer più efficienti dal punto di vista energetico, e questo non è sorprendente.
Aurora consumerà fino a 60 mW di potenza di picco, leggermente più del doppio dei 29 mW del Frontier, ma non sappiamo come sarà la sua performance finale. Non è chiaro se Aurora possa battere il Frontier nelle performance di Linpack, ma anche se dovesse vincere, sarebbe