Tesla: innovazioni nel rilevamento di errori nei supercomputer Dojo
Il nuovo strumento di Tesla, Stress, identifica difetti nei core dei supercomputer Dojo senza interrompere l'operatività.
Tesla ha sviluppato un innovativo strumento, chiamato Stress, per rilevare e disabilitare i core difettosi nei suoi supercomputer Dojo senza interromperne l'operatività. Questo strumento è fondamentale, poiché un singolo errore silente può compromettere settimane di addestramento dell'IA.
I processori Dojo, tra i più grandi al mondo, includono fino a 8.850 core per wafer. Tuttavia, alcuni core possono causare corruzioni silenti dei dati. Per affrontare questo problema, Tesla ha inizialmente utilizzato una tecnica di fuzzing differenziale, che è stata poi ottimizzata per ridurre il tempo necessario al rilevamento dei difetti.
La nuova metodologia prevede l'assegnazione di un carico utile unico a ciascun core, migliorando l'efficienza grazie all'elevata larghezza di banda di comunicazione interna dei Training Tile Dojo. Ciò consente di testare grandi quantità di istruzioni in modo più rapido e affidabile.
Il sistema Stress, completamente integrato nei cluster Dojo, ha già identificato numerosi core difettosi e un raro difetto di progettazione, corretto tramite aggiustamenti software. Inoltre, Tesla intende utilizzare i dati raccolti per studiare il degrado hardware a lungo termine e migliorare i test pre-silicio e le fasi di validazione iniziali.
Cos'è lo strumento 'Stress' sviluppato da Tesla per i supercomputer Dojo?
Lo strumento 'Stress' è un sistema innovativo sviluppato da Tesla per identificare e disabilitare i core difettosi nei supercomputer Dojo senza interrompere le operazioni. Questo è cruciale poiché un singolo errore silente può compromettere settimane di addestramento dell'IA.
Come funziona la metodologia di rilevamento dei core difettosi nei processori Dojo?
Tesla ha inizialmente utilizzato una tecnica di fuzzing differenziale per rilevare i core difettosi. Successivamente, ha ottimizzato questa metodologia assegnando un carico utile unico a ciascun core, sfruttando l'elevata larghezza di banda di comunicazione interna dei Training Tile Dojo, permettendo così di testare grandi quantità di istruzioni in modo più rapido e affidabile.
Quali sono i benefici dell'integrazione del sistema 'Stress' nei cluster Dojo?
L'integrazione del sistema 'Stress' nei cluster Dojo ha permesso di identificare numerosi core difettosi e un raro difetto di progettazione, corretto tramite aggiustamenti software. Inoltre, Tesla intende utilizzare i dati raccolti per studiare il degrado hardware a lungo termine e migliorare i test pre-silicio e le fasi di validazione iniziali.
Qual è l'architettura del supercomputer Dojo di Tesla?
Il supercomputer Dojo di Tesla è basato sul chip D1, progettato internamente, che contiene 50 miliardi di transistor e utilizza un approccio RISC-V con istruzioni personalizzate. Il sistema scala attraverso l'uso di ExaPOD, ciascuno contenente fino a 1.062.000 core, raggiungendo 20 exaflops di potenza di calcolo.
In che modo Dojo contribuisce allo sviluppo della guida autonoma di Tesla?
Dojo è progettato per elaborare enormi quantità di dati video raccolti dalla flotta di veicoli Tesla, accelerando l'addestramento delle reti neurali necessarie per migliorare le capacità di guida autonoma. Questo permette a Tesla di sviluppare e implementare più rapidamente nuove funzionalità per il Full Self-Driving
Quali sono le implicazioni economiche dell'introduzione di Dojo per Tesla?
Secondo analisti di Morgan Stanley, l'introduzione di Dojo potrebbe aumentare il valore di mercato di Tesla fino a 500 miliardi di dollari, grazie alla possibilità di offrire servizi di intelligenza artificiale ad altri produttori e di monetizzare il software di guida autonoma.