Microsoft Azure dévoile le premier cluster de supercalcul NVIDIA GB300 NVL72 au monde pour OpenAI.

Microsoft Azure vient de frapper fort dans la course à l’intelligence artificielle. La firme de Redmond a annoncé le déploiement du premier cluster de supercalculateurs à l’échelle de la production, basé sur le système NVIDIA GB300 NVL72. Conçu sur mesure pour les charges de travail d’inférence d’IA exigeantes d’OpenAI, cette infrastructure marque une étape significative dans l’évolution des capacités de calcul dédiées à l’IA.

Cette annonce, que l’on peut retrouver sur le blog de Microsoft Azure announced, souligne l’engagement de Microsoft et de NVIDIA à repousser les limites de l’infrastructure d’IA. En intégrant plus de 4 600 GPU NVIDIA Blackwell Ultra, ce cluster promet des performances inégalées pour les modèles d’IA de nouvelle génération. L’objectif est clair : fournir la puissance de calcul nécessaire pour les systèmes d’IA raisonnants et les systèmes d’IA agentifs, ouvrant ainsi de nouvelles perspectives dans le domaine.

Un Concentré de Puissance : Le NVIDIA GB300 NVL72 au Cœur du Système

Au cœur de la nouvelle série de machines virtuelles NDv6 GB300 d’Azure se trouve le système NVIDIA GB300 NVL72 refroidi par liquide. Chaque rack de ce système est une véritable centrale, intégrant 72 GPU NVIDIA Blackwell Ultra et 36 CPU NVIDIA Grace. L’objectif est d’accélérer à la fois l’entraînement et l’inférence des modèles d’IA massifs. Cette configuration offre une capacité de mémoire impressionnante de 37 téraoctets et une performance de 1,44 exaflops en FP4 Tensor Core par machine virtuelle.

Cette architecture assure un espace mémoire unifié massif, essentiel pour les modèles raisonnants, les systèmes d’IA agentifs et les modèles génératifs multimodaux complexes. La plateforme NVIDIA Blackwell Ultra est soutenue par l’ensemble de la pile logicielle NVIDIA AI, incluant des bibliothèques de communication collective qui exploitent de nouveaux formats comme NVFP4, optimisant ainsi les performances d’entraînement. De plus, des technologies de compilation telles que NVIDIA Dynamo NVIDIA Dynamo sont utilisées pour maximiser les performances d’inférence dans les applications d’IA raisonnante.

L’Architecture Réseau : NVIDIA Quantum-X800 InfiniBand et NVLink Switch

Pour connecter plus de 4 600 GPU Blackwell Ultra en un seul supercalculateur, le cluster Azure s’appuie sur une architecture réseau à deux niveaux, conçue pour optimiser les performances à la fois à l’intérieur des racks et à travers l’ensemble du cluster. Au sein de chaque rack GB300 NVL72, la cinquième génération de la structure NVIDIA NVLink Switch fournit 130 To/s de bande passante directe et totale entre les 72 GPU Blackwell Ultra. Cela transforme l’ensemble du rack en un seul accélérateur unifié avec un pool de mémoire partagée, une conception cruciale pour les modèles massifs et gourmands en mémoire.

Pour une mise à l’échelle au-delà du rack, le cluster utilise la plateforme NVIDIA Quantum-X800 InfiniBand NVIDIA Quantum-X800 InfiniBand, spécialement conçue pour l’IA à l’échelle de plusieurs trillions de paramètres. Dotée de NVIDIA ConnectX-8 SuperNICs et de commutateurs Quantum-X800, cette plateforme offre 800 Gb/s de bande passante par GPU, assurant une communication transparente entre les 4 608 GPU. Le cluster Azure utilise également le routage adaptatif avancé, le contrôle de congestion basé sur la télémétrie et les capacités d’isolation des performances de NVIDIA Quantum-X800, ainsi que le protocole NVIDIA SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) v4, améliorant l’efficacité de l’entraînement et de l’inférence à grande échelle.

Implications et Perspectives d’Avenir

La mise en place de ce cluster de supercalculateurs représente un pas de géant. Il a nécessité une refonte complète de chaque couche du centre de données de Microsoft, de la distribution de l’alimentation et du refroidissement liquide personnalisé jusqu’à une pile logicielle repensée pour l’orchestration et le stockage. Ce jalon majeur ouvre la voie à des innovations futures dans le domaine de l’IA. Alors qu’Azure vise à déployer des centaines de milliers de GPU NVIDIA Blackwell Ultra, d’autres avancées sont attendues de clients tels qu’OpenAI. Les performances de ces systèmes sont déjà impressionnantes, comme le démontrent les récents benchmarks MLPerf Inference v5.1 MLPerf Inference v5.1, où les systèmes NVIDIA GB300 NVL72 ont établi des records en utilisant NVFP4.

Ce déploiement de grande envergure illustre également la collaboration étroite entre NVIDIA et Microsoft, visant à fournir une infrastructure d’IA de pointe. En optimisant tous les aspects des centres de données modernes, ils permettent à des clients comme OpenAI de déployer une infrastructure de nouvelle génération à une échelle et une vitesse sans précédent. Cette approche collaborative pourrait bien redéfinir les standards de l’industrie.

Conclusion

L’annonce de Microsoft Azure et de NVIDIA marque une étape décisive dans la course à l’IA. Le déploiement du premier cluster de production NVIDIA GB300 NVL72 à cette échelle démontre l’engagement des deux entreprises à repousser les limites de l’innovation. En fournissant une infrastructure de calcul puissante et évolutive, elles ouvrent la voie à de nouvelles avancées dans le domaine de l’IA, avec des implications significatives pour des applications telles que la modélisation du langage, la reconnaissance d’images et bien d’autres encore.

L’avenir de l’IA semble donc prometteur, porté par des technologies de pointe et des collaborations stratégiques. La capacité à traiter des modèles d’IA toujours plus complexes et à grande échelle permettra sans doute d’accélérer le développement de nouvelles applications et de services innovants, transformant ainsi de nombreux secteurs.

Un Concentré de Puissance : Le NVIDIA GB300 NVL72 au Cœur du Système

L’Architecture Réseau : NVIDIA Quantum-X800 InfiniBand et NVLink Switch

Implications et Perspectives d’Avenir

Conclusion

Actu similaires