Recherche de site Web

Qu'est-ce qu'un NVIDIA H100 ?


Les GPU NVIDIA (Graphics Processing Units) sont des machines puissantes capables d'effectuer de nombreux calculs en parallèle sur des centaines, voire des milliers de cœurs de calcul discrets. Avec la sortie de la microarchitecture The Hopper l'année dernière, le NVIDIA H100 fait partie des ordinateurs uniques les plus puissants jamais mis à la disposition des consommateurs, surpassant largement les machines Ampere précédentes. Avec chaque version de microarchitecture, terme désignant l'architecture du jeu d'instructions du processeur, NVIDIA a introduit une amélioration substantielle de la capacité VRAM, des cœurs CUDA et de la bande passante par rapport à la génération précédente. Alors que les puissants GPU Ampere, notamment l'A100, ont marqué le début de la révolution de l'IA au cours des deux dernières années ; nous avons vu les GPU Hopper amener ce taux de développement à des niveaux de croissance sans précédent.

Dans cet article, nous discuterons et présenterons en avant-première certaines des avancées incroyables du dernier et meilleur GPU pour centre de données de Nvidia : la série Hopper H100.

Conditions préalables

Le contenu de cet article est très technique. Nous recommandons cet article aux lecteurs expérimentés à la fois avec le matériel informatique et les concepts de base du Deep Learning.

Présentation de la machine : NVIDIA H100

Le GPU NVIDIA H100 Tensor Core représente une avancée en matière de développement par rapport à l'A100 à plusieurs égards. Dans cette section, nous détaillerons certaines de ces avancées dans le contexte de l'utilitaire Deep Learning.

Pour commencer, le H100 possède la deuxième bande passante mémoire de carte PCIe (Peripheral Component Interconnect Express) la plus élevée, autre que le H200 plus récent, de tous les GPU disponibles dans le commerce. À plus de 2 To/s, le modèle est capable de charger et de travailler avec les plus grands ensembles de données et modèles en utilisant ses 80 Go de VRAM à des vitesses extrêmement élevées. Cela confère au NVIDIA H100 des performances exceptionnelles, en particulier pour les applications d'IA à grande échelle.

Ce débit incroyable est rendu possible grâce aux cœurs Tensor de 4e génération du H100, qui représentent un bond d'un ordre de grandeur par rapport aux anciens GPU. Le H100 est doté d'un nombre impressionnant de 640 cœurs Tensor et de 128 cœurs Ray Tracing, ce qui facilite la signature du traitement des données à grande vitesse sur la machine. Ceux-ci complètent les 14 592 cœurs CUDA pour atteindre un nombre incroyable de 26 téraFLOPS sur des procédures de pleine précision (fp64).

De plus, la technologie NVIDIA H100 Tensor Core prend en charge un large éventail de précisions mathématiques, fournissant un accélérateur unique pour chaque charge de travail de calcul. Le NVIDIA H100 PCIe prend en charge les tâches de calcul en double précision (FP64), simple précision (FP32), demi-précision (FP16) et nombre entier (INT8) » (Source).

Nouvelles fonctionnalités des GPU Hopper

Il existe un certain nombre de mises à niveau notables de la microarchitecture Hopper, notamment des améliorations de la technologie Tensor Core, l'introduction du moteur de transformation et bien plus encore. Examinons de plus près certaines des améliorations les plus notables.

Cœurs Tensor de quatrième génération avec le moteur Transformer

Sans doute la mise à jour la plus importante pour les utilisateurs de Deep Learning ou d’Intelligence artificielle, la quatrième génération de Tensor Cores promet une accélération incroyable jusqu’à 60x pour une efficacité de performance maximale par rapport à la version Ampere Tensor Core. Pour y parvenir, NVIDIA a sorti le Transformer Engine. Le moteur de transformateur dédié est un composant essentiel de chaque Tensor Core conçu pour accélérer les modèles construits avec le bloc Transformer dans leur architecture, permettant ainsi aux calculs de s'effectuer de manière dynamique dans des formats mixtes FP8 et FP16.

Étant donné que les FLOP Tensor Core dans FP8 sont deux fois supérieurs à ceux de 16 bits, il est hautement souhaitable d'exécuter des modèles de Deep Learning dans ces formats pour réduire les coûts. Cependant, cela peut réduire considérablement la précision du modèle. L'innovation Transformer Engine a permis de compenser la perte de précision liée à l'utilisation du format informatique FP8 tout en bénéficiant massivement de l'augmentation du débit du FP16. Cela est possible car le Transformer Engine est capable de basculer dynamiquement entre les formats à chaque couche du modèle, selon les besoins. (Figure 1) De plus, « l'architecture NVIDIA Hopper en particulier fait également progresser les cœurs Tensor de quatrième génération en triplant les opérations en virgule flottante par seconde par rapport aux précisions TF32, FP64, FP16 et INT8 des générations précédentes » (Source).

MIG sécurisé de deuxième génération

MIG ou Multi Instance GPU est la technologie qui permet à un seul GPU d'être partitionné en instances entièrement confinées et isolées, avec leur propre mémoire, cache et cœurs de calcul (Source). Dans les H100, la technologie MIG de deuxième génération améliore encore cela en permettant au GPU d'être divisé en sept instances GPU sécurisées avec des configurations multi-locataires et multi-utilisateurs dans des environnements virtuels.

En pratique, cela permet de faciliter le partage de GPU avec un haut degré de sécurité intégré, et constitue l'une des fonctionnalités clés qui rendent le H100 si idéal pour les utilisateurs du cloud. Chacune des instances dispose de décodeurs vidéo dédiés qui servent à fournir des analyses vidéo intelligentes (IVA) sur l'infrastructure partagée directement aux systèmes de surveillance, et les administrateurs peuvent surveiller et optimiser les allocations de ressources aux utilisateurs à l'aide du profilage MIG simultané de Hopper.

NVLink de quatrième génération et NVSwitch de troisième génération

NVLink et NVSwitch sont les technologies GPU NVIDIA qui facilitent la connexion de plusieurs GPU entre eux dans un système intégré. Avec chaque génération suivante, ces technologies n’ont fait que s’améliorer. NVLink est le matériel d'interconnexion bidirectionnel qui permet aux GPU de partager des données entre eux, et NVSwitch est une puce qui facilite les connexions entre différentes machines dans un système multi-GPU en connectant les interfaces d'interconnexion NVLink aux GPU.

Dans les H100, NVLink de quatrième génération adapte efficacement les interactions d'E/S GPU multi-instances jusqu'à 900 gigaoctets par seconde (Go/s) bidirectionnels par GPU, ce qui est estimé à plus de 7 fois la bande passante du PCIe Gen5 (Source). Cela signifie que les GPU sont capables d'entrer et de sortir des informations entre eux à des vitesses nettement supérieures à celles possibles avec Ampere, et cette innovation est responsable de bon nombre des accélérations signalées par les systèmes multi-GPU H100 dans les supports marketing.

Ensuite, NVIDIA NVSwitch de troisième génération prend en charge l'informatique en réseau SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) et offre une multiplication par 2 du débit tout réduit au sein de huit serveurs GPU H100 par rapport aux systèmes GPU A100 Tensor Core de la génération précédente (Source ). Concrètement, cela signifie que la dernière génération de NVSwitch est capable de superviser plus efficacement les opérations sur le système multi-GPU, d'allouer les ressources là où cela est nécessaire et d'augmenter considérablement le débit sur les systèmes DGX.

Informatique confidentielle

informatique confidentielle

Une préoccupation commune à l’ère du Big Data est la sécurité. Bien que les données soient souvent stockées ou transférées dans des formats cryptés, cela n'offre aucune protection contre les acteurs malveillants qui peuvent accéder aux données pendant leur traitement. Avec la sortie de la microarchitecture Hopper, NVIDIA a introduit une nouvelle solution à ce problème : Confidential Computing. Cela élimine efficacement une grande partie du risque de vol de données pendant le traitement en créant un espace de données physique où les charges de travail sont traitées indépendamment du reste du système informatique. En traitant toute la charge de travail dans un environnement d’exécution inaccessible et fiable, il est beaucoup plus difficile d’accéder aux données protégées.

H100 contre A100

Le NVIDIA H100 représente une avancée notable à tous égards par rapport à son prédécesseur, l'A100. Ces améliorations vont plus loin que les inclusions des nouvelles technologies dont nous avons parlé plus tôt, mais incluent également des améliorations quantitatives générales de la puissance de traitement capable par une seule machine.

Voyons comment les H100 et A100 se comparent en termes de spécifications GPU pertinentes :

GPU Features NVIDIA A100 NVIDIA H100 PCIe1
GPU Architecture NVIDIA Ampere NVIDIA Hopper
GPU Board Form Factor SXM4 PCIe Gen 5
SMs 108 114
TPCs 54 57
FP32 Cores / SM 64 128
FP32 Cores / GPU 6912 14592
FP64 Cores / SM (excl. Tensor) 32 64
FP64 Cores / GPU (excl. Tensor) 3456 7296
INT32 Cores / SM 64 64
INT32 Cores / GPU 6912 7296
Tensor Cores / SM 4 4
Tensor Cores / GPU 432 456
GPU Boost Clock (Not finalized for H100)3 1410 MHz Not finalized
Peak FP8 Tensor TFLOPS with FP16 Accumulate1 N/A 1600/32002
Peak FP8 Tensor TFLOPS with FP32 Accumulate1 N/A 1600/32002
Peak FP16 Tensor TFLOPS with FP16 Accumulate1 312/6242 800/16002
Peak FP16 Tensor TFLOPS with FP32 Accumulate1 312/6242 800/16002
Peak BF16 Tensor TFLOPS with FP32 Accumulate1 312/6242 800/16002
Peak TF32 Tensor TFLOPS1 156/3122 400/8002
Peak FP64 Tensor TFLOPS1 19.5 48
Peak INT8 Tensor TOPS1 624/12482 1600/32002
Peak FP16 TFLOPS (non-Tensor)1 78 96
Peak BF16 TFLOPS (non-Tensor)1 39 96
Peak FP32 TFLOPS (non-Tensor)1 19.5 48
Peak FP64 TFLOPS (non-Tensor)1 9.7 24
Memory Size 40 or 80 GB 80 GB
Memory Bandwidth1 1555 GB/sec 2000 GB/sec

(Source)

Premièrement, comme nous pouvons le voir dans le tableau ci-dessus, le H100 a un nombre légèrement plus élevé de multiprocesseurs de streaming (SM) et de TPC (centres de traitement de texture) que l'A100, mais un nombre significativement plus élevé de cœurs tenseurs pour chaque format de numéro d'ordinateur et sur chaque SM. Le H100 possède en fait le double du nombre de cœurs FP32 par SM que l'A100, plus du double du nombre de cœurs FP64 par SM, environ 300 cœurs INT32 supplémentaires et 24 cœurs Tensor supplémentaires. En pratique, ces augmentations se traduisent directement par le fait que chaque unité de traitement du H100 est individuellement beaucoup plus puissante que l'appareil comparatif de l'A100.

Il est évident que cela affecte directement les mesures liées à la vitesse de traitement, à savoir les performances maximales dans différents formats de numéros informatiques et la bande passante mémoire elle-même. Quel que soit le contexte, le H100 surpasse l'A100. De plus, l'extension des capacités au FP8 avec l'accumulation de gradient FP16 ou FP32 avec le Transformer Engine signifie qu'il est possible d'effectuer des calculs de précision mixte que l'A100 ne serait pas en mesure de gérer. Cela se traduit par une augmentation directe de près de 450 Go/s de la bande passante mémoire, qui mesure le volume de données pouvant être transférées sur une machine en Go/s.

En plaçant cela dans le contexte de la formation de grands modèles linguistiques, les améliorations cumulatives du H100 permettent respectivement une accélération de 9x de la formation et une augmentation de 30x des débits d'inférence.

Quand utiliser le NVIDIA H100

Comme nous l'avons montré dans cette analyse du H100, le H100 représente un pas en avant dans toutes les directions pour les GPU NVIDIA. Dans tous les cas d'utilisation, il surpasse le précédent GPU (A100) avec une augmentation relativement minime de la consommation d'énergie, et il est capable de travailler sur une plus grande variété de formats de nombres avec une précision mixte pour améliorer encore plus ces performances. Cela ressort à la fois des nouvelles technologies des GPU Hopper, des améliorations apportées aux technologies existantes et de l'augmentation générale du nombre d'unités de calcul disponibles sur la machine.

Le H100 représente le sommet des GPU actuels et est conçu pour un large éventail de cas d’utilisation. Il offre des performances exceptionnellement puissantes et nous le recommandons à tous ceux qui cherchent à entraîner des modèles d'intelligence artificielle et à effectuer d'autres tâches nécessitant un GPU.

Pensées finales

Le H100 est aujourd’hui la référence en matière de GPU. Alors que la prolifération naissante de la nouvelle génération, Blackwell, de GPU NVIDIA atteindra bientôt le cloud, le H100 et son costaud cousin le H200 restent les meilleures machines disponibles pour toute tâche de Deep Learning. Pour ceux qui souhaitent essayer eux-mêmes les H100 à la demande, inscrivez-vous dès aujourd’hui aux GPU Droplets de DigitalOcean.

Articles connexes: