Intel SC23 Update: Modello AI con 1 trilione di parametri in esecuzione su Aurora Supercomputer, Benchmark Granite Rapids
Intel condivide le ultime informazioni sulle sue iniziative HPC e AI.
Intel ha condiviso nuove informazioni sulle sue iniziative di HPC e intelligenza artificiale. Durante il Supercomputing 2023, Intel ha fornito una serie di aggiornamenti sulle sue ultime iniziative di HPC e AI, inclusi dettagli su Emerald Rapids di quinta generazione, futuri processori Xeon Granite Rapids, acceleratori Guadi e benchmark delle GPU della serie Max rispetto alle GPU H100 di Nvidia. Intel ha anche presentato il suo modello di intelligenza artificiale "genAI" con 1 trilione di parametri che gira sul supercomputer Aurora. Aurora è atteso come il supercomputer più veloce al mondo.
Alla Supercomputing 2023, Intel ha fornito una serie di aggiornamenti sulle sue ultime iniziative HPC e AI, tra cui nuove informazioni sui processori Xeon di quinta generazione Emerald Rapids e sui futuri processori Xeon Granite Rapids, gli acceleratori Guadi, i nuovi benchmark della serie Max GPU rispetto alle GPU H100 di Nvidia e il lavoro dell'azienda sul modello AI 'genAI' con 1 trilione di parametri che viene eseguito su Aurora supercomputer.
Al termine, si prevede ampiamente che Aurora diventi il supercomputer più veloce al mondo con una performance di due Exaflop/s (EFlop/s). Tuttavia, Intel non ha ancora condiviso i dettagli sulla presentazione ufficiale dei benchmark di Aurora per la lista Top500 - l'azienda afferma che lascerà tale annuncio al Dipartimento dell'Energia e al Laboratorio Nazionale di Argonne. Se la tradizione si mantiene, l'organizzazione Top500 rilascerà i risultati molto attesi più tardi oggi. Nel frattempo, l'aggiornamento di Intel include molti nuovi dettagli da analizzare.
Alla capacità massima, il supercomputer Aurora di Intel utilizzerà 21.248 processori Xeon Max Sapphire Rapids equipaggiati con HBM2E e 60.000 GPU Xeon Max, rendendolo il più grande dispiegamento di GPU conosciuto al mondo. Come accennato, Intel non sta rilasciando i benchmark per la presentazione alla Top500, ma l'azienda ha condiviso le prestazioni di alcuni carichi di lavoro con un sistema in esecuzione parziale.
Intel e l'Argonne National Labs hanno testato Aurora nel progetto genAI, un modello AI fondamentale GPT-3 LLM con un trilione di parametri per la scienza. Grazie alla grande quantità di memoria presente sulle GPU Data Center Max 'Ponte Vecchio', Aurora può eseguire il massiccio modello con soli 64 nodi. Argonne ha eseguito quattro istanze del modello in parallelo su un totale di 256 nodi. Questo carico di lavoro alla fine si espanderà a 10.000 nodi dopo che i carichi di lavoro saranno stati ottimizzati.
Intel ha anche evidenziato una forte scalabilità da 128 a 256 nodi in un'applicazione di inferenza AI per il drug-screening, ESP-ML, ma i benchmark di Argonne rispetto alle GPU concorrenti sono molto più interessanti: Intel afferma che una singola GPU Max 1550 offre un aumento di velocità del 56% rispetto agli acceleratori MI250 di AMD e un vantaggio del 2,3X rispetto alle GPU A100 di Nvidia della generazione precedente in addestramento CosmicTagger con PyTorch/FP32. I risultati indicano anche una forte scalabilità, con un nodo di test Sunspot a sei GPU che mostra una scalabilità delle prestazioni dell'83%. Di conseguenza, il nodo Sunspot ha fornito una performance più del doppio rispetto a un sistema di test AMD a quattro GPU con GPU sconosciute e cinque volte la performance di un nodo a quattro GPU con le GPU Polaris datate - certamente non il miglior confronto perché Polaris è stato lanciato nel 2016.
Argonne ha anche testato 512 nodi di Aurora rispetto a 475 nodi di Polaris in un carico di lavoro di connettoma cerebrale (Connectomics ML) che modella il cervello di un topo, evidenziando un vantaggio del 2X rispetto a Polaris di AMD, che ha sei anni.
La roadmap dei data center di Intel rimane in linea, con i processori Emerald Rapids di quinta generazione previsti per il lancio il 14 dicembre. Intel ha anticipato i benchmark del processore Xeon 8592+ di punta con 64 core rispetto al suo predecessore, il processore Xeon 8480+ di quarta generazione. Come sempre, prendere i benchmark forniti dai produttori con una certa cautela (è possibile trovare le note di test nell'ultimo album di questo articolo).
Come ci si aspetterebbe da un numero maggiore di core, l'8592+ registra un aumento del 1,4X nel riconoscimento vocale AI e nel benchmark LAMMPS, fornendo anche un aumento del 1,2X nel carico di lavoro di transcodifica multimediale FFMPEG.
Intel ha anche fornito previsioni sulle prestazioni dei futuri processori Xeon Granite Rapids, che saranno fabbricati sul nodo 'Intel 3'. Questi processori aggiungeranno più core, frequenze più elevate, accelerazione hardware per FP16 e supporto per 12 canali di memoria, inclusi i nuovi DIMM di memoria MCR che aumentano notevolmente la larghezza di banda della memoria. Nel complesso, Intel afferma un miglioramento del 2-3X nei carichi di lavoro AI, un aumento del 2,8X nella larghezza di banda della memoria e un miglioramento del 2,9X nel carico di lavoro di inferenza AI DeepMD+LAMMPS.
I processori Xeon Max di Intel equipaggiati con HBM2E sono ora in spedizione. Intel ha confrontato il suo processore Xeon Max 9480 con 56 core, equipaggiato con 64 GB di memoria HBM integrata, con il processore EPYC 9654 di AMD con 96 core. I carichi di lavoro scelti da Intel per questa serie di benchmark sono composti da casi d'uso mirati in applicazioni con limitazioni di memoria che naturalmente beneficeranno del processore Xeon. Nel complesso, Intel afferma un vantaggio medio del 1,2X rispetto al concorrente EPYC in una serie di carichi di lavoro che spaziano dalla simulazione all'energia, dalle scienze dei materiali alla produzione e ai servizi finanziari.
Intel ha condiviso alcuni dettagli sul prossimo Gaudi