Un errore EPYC? Le istanze di Microsoft Azure abbinano l'MI300X di AMD con il Sapphire Rapids di Intel
Genoa messa da parte a favore di Sapphire Rapids
Le nuove istanze di Azure di Microsoft, focalizzate sull'intelligenza artificiale, sono alimentate dalle GPU per data center MI300X di AMD, ma sono abbinate alle CPU Xeon Sapphire Rapids di Intel. Sapphire Rapids sembra avere alcuni vantaggi chiave nel campo dell'elaborazione dell'IA rispetto alle CPU EPYC Genoa di AMD. Microsoft ha scelto Sapphire Rapids anche per il supporto alle estensioni AMX di Intel, che accelerano i compiti di IA e apprendimento automatico. Anche Nvidia preferisce Sapphire Rapids rispetto alle CPU EPYC di AMD. Le istanze di Azure includono anche gli switch InfiniBand Quantum-2 CX7 di Nvidia.
Le nuove server AI-focused di Microsoft Azure sono alimentate dalle GPU datacenter MI300X di AMD, ma sono abbinate ai processori Xeon Sapphire Rapids di Intel. I processori EPYC di quarta generazione di punta di AMD, Genoa, sono potenti, ma Sapphire Rapids sembra avere un paio di vantaggi chiave quando si tratta di supportare le GPU di calcolo AI. E non è solo Microsoft a scegliere Sapphire Rapids, anche Nvidia sembra preferirlo rispetto ai chip EPYC di generazione attuale di AMD.
Ci sono probabilmente diversi fattori che hanno convinto Microsoft a optare per Sapphire Rapids invece di Genoa di AMD, ma il supporto di Intel per le sue istruzioni Advanced Matrix Extensions (AMX) potrebbe essere uno dei motivi importanti per cui Microsoft ha scelto Sapphire Rapids. Secondo Intel, queste istruzioni sono progettate per accelerare le attività di intelligenza artificiale e di apprendimento automatico fino a sette volte.
Anche se Sapphire Rapids non è particolarmente efficiente e ha prestazioni multi-threaded peggiori rispetto a Genoa, le sue prestazioni single-threaded sono abbastanza buone per alcuni carichi di lavoro. Questo non è qualcosa che aiuta solo i carichi di lavoro AI specificamente; è solo un vantaggio generale in alcuni tipi di calcolo.
Le nuove istanze di Azure presentano anche gli switch Quantum-2 CX7 InfiniBand di Nvidia, unendo l'hardware di tutti e tre i giganti tecnologici. Questo dimostra che nel mondo all'avanguardia dell'AI, le aziende vogliono semplicemente l'hardware migliore per il lavoro e non sono particolarmente esigenti su chi lo produce, indipendentemente dalle rivalità .
Con otto GPU MI300X contenenti 192 GB di memoria HBM3 ciascuna, queste istanze Azure orientate all'AI offrono un totale di 1.536 GB di VRAM, che è cruciale per l'addestramento dell'AI. Tutto questo VRAM è probabilmente una delle principali ragioni per cui Microsoft ha scelto l'MI300X invece delle GPU Hopper di Nvidia. Anche il chip H200 più recente e più avanzato ha solo 141 GB di HBM3e per GPU, una quantità significativamente inferiore rispetto all'MI300X.
Microsoft ha anche elogiato il software ROCm open-source di AMD. AMD ha lavorato duramente per portare ROCm al livello del software CUDA di Nvidia, che domina ampiamente la grafica professionale e dei server. Il fatto che Microsoft stia riponendo fiducia in ROCm è forse un segno che l'ecosistema hardware-software di AMD sta migliorando rapidamente.