Microsoft dévoile une nouvelle étape dans sa stratégie d’infrastructure d’intelligence artificielle (IA) avec l’annonce d’un nouveau site de datacenters « Fairwater » à Atlanta, en Géorgie. Cette initiative s’inscrit dans une démarche globale visant à créer une « superfactory » d’IA à l’échelle planétaire, connectant plusieurs sites et générations de superordinateurs pour répondre à la demande croissante en puissance de calcul. L’annonce, faite via le The Official Microsoft Blog, met en lumière les innovations technologiques qui permettent à Microsoft de repousser les limites de la performance et de l’efficacité dans le domaine de l’IA.
Ce nouveau datacenter, en collaboration avec le site existant de Fairwater dans le Wisconsin, ainsi que d’autres datacenters Azure, formera un réseau interconnecté capable de gérer des charges de travail d’IA sans précédent. L’objectif est clair : fournir une infrastructure flexible et performante pour la formation de modèles d’IA de nouvelle génération, tout en optimisant l’utilisation des ressources et en réduisant l’impact environnemental. Cette approche marque une évolution significative par rapport aux infrastructures traditionnelles, avec un accent mis sur la densité de calcul, la durabilité et les performances réseau.
Conception et Innovations Techniques au Cœur de Fairwater
La conception du datacenter Fairwater rompt avec les modèles traditionnels, en adoptant une architecture réseau unique et plate qui peut intégrer des centaines de milliers de GPU NVIDIA GB200 et GB300. Cette approche permet de maximiser la densité de calcul, ce qui est crucial pour minimiser la latence et optimiser les performances des systèmes d’IA. L’un des piliers de cette stratégie est l’amélioration du refroidissement, avec un système en boucle fermée qui réutilise le liquide de refroidissement, réduisant ainsi la consommation d’eau et augmentant l’efficacité énergétique. Selon Microsoft, l’eau utilisée initialement équivaut à la consommation annuelle de 20 foyers, et ne nécessite un remplacement que si la chimie de l’eau l’exige, ce qui est prévu pour durer plus de six ans. Le Fairwater site in Wisconsin est un exemple concret de cette approche.
De plus, la conception du bâtiment en deux étages permet de réduire la longueur des câbles et d’améliorer la latence, la bande passante et la fiabilité. Cette architecture innovante facilite également le placement des racks dans trois dimensions, optimisant ainsi l’espace et les performances. L’alimentation électrique est également un aspect clé, avec une alimentation résiliente qui permet d’économiser sur les coûts et d’accélérer le délai de mise sur le marché. Microsoft a également collaboré avec des partenaires pour développer des solutions de gestion de l’alimentation, minimisant ainsi les fluctuations et assurant la stabilité du réseau, un défi croissant avec l’augmentation de la demande en IA.
Accélérateurs et Réseau de Pointe pour l’IA
Le datacenter Fairwater est équipé de serveurs spécialement conçus, d’accélérateurs d’IA de pointe et de systèmes de réseau novateurs. Chaque site Fairwater abrite un cluster unique et cohérent de GPU NVIDIA Blackwell interconnectés. Ces GPU offrent une densité de calcul inégalée, avec une prise en charge des formats numériques à faible précision comme FP4 pour augmenter les FLOPS totaux et optimiser l’utilisation de la mémoire. Chaque rack fournit 1,8 To de bande passante GPU-à-GPU, avec plus de 14 To de mémoire partagée disponible pour chaque GPU.
Le réseau est également un élément clé de cette infrastructure. Un réseau dorsal Ethernet à deux niveaux est utilisé pour créer des pods et des clusters qui permettent à tous les GPU de fonctionner comme un seul superordinateur, avec un nombre minimal de sauts. Microsoft utilise également SONiC (Software for Open Network in the Cloud) pour éviter le verrouillage fournisseur et gérer les coûts en utilisant du matériel standard au lieu de solutions propriétaires. De plus, Microsoft a collaboré avec des partenaires comme OpenAI et NVIDIA pour développer un protocole réseau personnalisé révolutionnaire, le Multi-Path Reliable Connected (MRC), qui permet un contrôle et une optimisation plus approfondis des itinéraires réseau. Ces technologies offrent un contrôle de congestion avancé, une détection et une retransmission rapides, ainsi qu’un équilibrage de charge agile, garantissant des performances ultra-fiables et à faible latence pour les charges de travail d’IA modernes.
Vers une « Superfactory » d’IA à Échelle Planétaire
Pour répondre aux besoins croissants en calcul, Microsoft a mis en place un réseau optique WAN (Wide Area Network) dédié à l’IA, étendant les réseaux scale-up et scale-out de Fairwater. L’entreprise a déployé plus de 120 000 miles de fibre optique aux États-Unis l’année dernière, élargissant la portée et la fiabilité du réseau d’IA à l’échelle nationale. Cette infrastructure permet de connecter directement différentes générations de superordinateurs en une « superfactory » d’IA, dépassant les capacités d’un seul site. Cette approche permet aux développeurs d’IA d’accéder à un réseau plus large de datacenters Azure, en segmentant le trafic en fonction de leurs besoins, que ce soit au sein d’un site ou entre plusieurs sites via le WAN.
Cette approche est une évolution significative par rapport au passé, où tout le trafic devait passer par le réseau scale-out, quels que soient les besoins de la charge de travail. Cela offre aux clients une infrastructure adaptée à leurs besoins à un niveau plus granulaire, tout en maximisant la flexibilité et l’utilisation de l’infrastructure. En intégrant de manière transparente les innovations en matière de densité de calcul, de durabilité et de systèmes réseau, Microsoft vise à fournir une infrastructure flexible et adaptée à tous les types de charges de travail d’IA modernes.
Conclusion
L’annonce du nouveau site Fairwater à Atlanta marque une avancée majeure dans l’infrastructure d’IA d’Azure. En combinant des innovations en matière de densité de calcul, de durabilité et de systèmes réseau, Microsoft est en mesure de répondre à la demande croissante en puissance de calcul tout en améliorant l’efficacité et en réduisant l’impact environnemental. L’intégration de ce site avec d’autres datacenters Azure et la plateforme plus large d’Azure permet de créer la première « superfactory » d’IA au monde, ouvrant de nouvelles perspectives pour les entreprises et les particuliers souhaitant intégrer l’IA dans leurs activités.
Cette initiative souligne l’engagement de Microsoft à rester à la pointe de l’innovation dans le domaine de l’IA et à fournir des solutions qui permettent à chacun d’atteindre davantage. Pour en savoir plus sur la manière dont Microsoft Azure peut vous aider à intégrer l’IA, consultez la ressource suivante : Microsoft Azure.
