Nvidia glisse chez lui avec 8 enregistrements AI, selon Google Cloud bat son système sur site

Nvidia glisse chez lui avec 8 enregistrements AI, selon Google Cloud bat son système sur site
4.2 (84.55%) 22 votes


Ajouter aux Favoris

Huit heures, à 80 secondes…

Dans des tests standardisés soutenus par l'industrie, Nvidia a fracassé des records de formation en IA, tandis que Google Cloud est devenu la première entreprise à être plus rapide que les systèmes sur site avec des charges de travail de formation ML à grande échelle et standard, gagnant dans trois catégories.

Lors de la dernière étape du test MLPerf pour l’entraînement à l’IA, Nvidia a établi huit records en termes de performances d’entraînement à l’IA.

Nvidia était la seule société à soumettre des entrées dans les six catégories des tests à l'aide de son DGX SuperPOD, une configuration alimentée par 1 536 GPU NVIDIA V100 Tensor Core interconnectés avec la structure réseau NVIDIA NVSwitch et Mellanox.

Les six catégories testées lors de cette ronde étaient: la classification des images; détection d'objet léger; détection d'objet poids lourd; traduction récurrente; traduction non récurrente; apprentissage par recommandation et renforcement.

Dans ces tests de «division fermée», tout le monde doit utiliser le même modèle et le même optimiseur. En plus des restrictions de construction, le modèle de classification des images est défini sur ResNet-50 v1.5. Ces exigences de spécification permettent des comparaisons entre les technologies.

Lorsque Nvidia a demandé à son serveur DGX-1 de former un modèle de classification des images lors des derniers tests il y a sept mois, cela a pris huit heures. Cette semaine, à l'aide d'un DGX SuperPod associé au modèle de formation ResNet-50 pour la classification des images défini par MLPerf, Nvidia a été réduit à 80 secondes.

Nvidia s’efforce d’améliorer les performances de son matériel avec des mises à niveau et des ajustements logiciels mensuels, ce qui semble avoir porté ses fruits puisque son serveur NVIDIA DGX-2H a enregistré une augmentation de 80% par rapport aux soumissions MLPerf de décembre dernier.

Dave Salvator, responsable marketing produits principal chez Nvidia, a résumé certaines des principales mises à niveau logicielles qui ont permis de réduire le temps de formation: «Une série d'améliorations liées à DALI ont accéléré le pipeline de saisie de données, lui permettant de suivre le rythme du réseau neuronal à haute vitesse. En traitement. Celles-ci incluent l’utilisation des décodages NVJPEG et ROI JPEG pour limiter le travail de décodage JPEG à la région de l’image brute réellement utilisée. ”

«Nous avons également utilisé Horovod pour l’exécution parallèle des données, ce qui nous a permis de masquer l’échange de gradients entre les GPU après d’autres travaux de rétro-propagation se déroulant sur le GPU. Le résultat net a été pondéré comme une amélioration de 5,1 fois à l'échelle par rapport à notre soumission pour MLPerf v0.5, complétant ainsi cette formation en version v0.6 en seulement 80 secondes avec le SuperPOD de DGX. ”

Google Cloud

Google Cloud est entré dans cinq catégories et a réussi à établir trois records de performances à l’échelle à l’aide de ses podcups Cloud TPU v3, qui sont essentiellement des racks des unités de traitement du tenseur de Google 1.

Ses modules Cloud TPU v3 formés forment 84% plus rapidement que les systèmes sur site dans trois catégories. Ses réalisations les plus remarquables ont été l'architecture de modèle Transformer et l'architecture de modèle SSD.

Zak Stone, chef de produit senior pour les TPU dans le cloud, a déclaré: «Grâce à ces derniers résultats de référence MLPerf, Google Cloud est le premier fournisseur de cloud public à surperformer les systèmes sur site lorsqu’il exécute des charges de travail de formation à grande échelle et standard de Transformer, Single Shot Detector (SSD) et ResNet-50. ”

«L'architecture du modèle Transformer est au cœur du traitement du langage naturel (TNP) moderne. Par exemple, Transformer a permis des améliorations majeures de la traduction automatique, de la modélisation du langage et de la génération de texte de haute qualité.

MLPerf AI Records

Le MLPerf, lancé en mai 2018, est une collaboration d'ingénieurs et de chercheurs travaillant à la construction d'un nouveau point de repère de l'industrie. La référence MLPerf est prise en charge par un vaste consortium de leaders technologiques tels que Google, Intel, NVIDIA, AMD et Qualcomm.

Il a été lancé car le rythme auquel l'apprentissage machine et l'intelligence artificielle évoluaient ces dernières années a rendu difficile la mesure précise des capacités d'une entreprise. Cela est aggravé par le fait que ML et AI peuvent être des termes tentaculaires qui englobent une gamme de techniques rendant difficile la comparaison des efforts sur le terrain.

Selon son: «Les efforts de MLPerf visent à créer un ensemble commun de points de repère qui permettent au domaine de l'apprentissage automatique (ML) de mesurer les performances du système pour la formation et la déduction d'appareils mobiles vers des services en nuage.»

MLPerf est pris en charge par plus de 70 organisations et cette série de tests a permis à cinq sociétés de soumettre Nvidia, Intel, Goolge, Alibaba et Fujitsu à des tests.

Voir également:

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *