
Bientôt, les data centers de Microsoft seront majoritairement équipés de ses propres puces pour l’intelligence artificielle, baptisées Maia 200. Un moyen de s’émanciper de son principal fournisseur, Nvidia, et de montrer à la concurrence ses capacités en matière de conception de puces.
Fin 2023, Microsoft levait le voile sur ses processeurs conçus en interne : Cobalt est un CPU sur base Arm, tandis que Maia est un accélérateur pour les calculs liés à l’intelligence artificielle. L’enjeu était alors crucial pour la firme de Redmond : rendre Azure plus attirant que la compétition. Aujourd’hui, le géant revient en force avec Maia 200, la seconde génération de son accélérateur d’IA, conçu pour l’inférence.
Cette nouvelle version “donne un avantage décisif pour exécuter des modèles d’IA plus rapidement et à moindre coût”, assure Scott Guthrie, vice-président exécutif responsable cloud et IA chez Microsoft.
Des performances trois fois supérieures à celles des Trainium 3 d’AWS
Sur le plan technique, l’accélérateur est gravé en 3 nm par TSMC, intègre des cœurs tensoriels FP8 et FP4 natifs, un système mémoire entièrement repensé avec 216 Go de HBM3e offrant 7 To/s de bande passante et 272 Mo de mémoire SRAM sur puce. Avec ce sous-système mémoire repensé, ce focus sur les formats basse précision, ce moteur DMA spécialisé, cet énorme cache et un réseau sur puce (NoC) optimisé pour les transferts à très haut débit, Microsoft réussit à augmenter significativement le débit de tokens.
Par comparaison avec ses concurrents, Scott Guthrie assure que chaque puce Maia 200, contient plus de 140 milliards de transistors, offre trois fois les performances FP4 de la troisième génération d’Amazon Trainium et des performances FP8 supérieures à celles du TPU de septième génération de Google. “Maia 200 est également le système d’inférence le plus efficient jamais déployé par Microsoft, avec une amélioration de 30% du rapport performance/prix par rapport au matériel le plus récent actuellement présent dans notre parc”, ajoute-t-il.
Une puce adaptée aux tous derniers modèles du marché et aux projets internes
Avec Maia 200, Microsoft s’assure de prendre en charge les derniers modèles du marché, incluant la famille de LLM GPT-5.2 d’OpenAI avec, à la clé, un avantage en performance par dollar à Microsoft Foundry et Microsoft 365 Copilot.
En outre, il est prévu que l’équipe Microsoft Superintelligence dirigée par Mustafa Suleyman utilise Maia 200 pour la génération de données synthétiques et l’apprentissage par renforcement afin d’améliorer ses modèles internes. Maia 200 est par ailleurs adapté aux pipelines de données synthétiques, accélérant considérablement la production et le filtrage de données de qualité, spécifiques à des domaines précis.
Un SDK pour faciliter l’adoption par les développeurs
Pour motiver les développeurs et entreprises à adopter sa puce Maia 200, Microsoft met à disposition de ces derniers un SDK. Cet ensemble complet d’outils pour développer et optimiser des modèles sur Maia 200 comprend notamment une intégration PyTorch, un compilateur Triton, la programmation bas niveau en NPL, ainsi qu’un simulateur Maia et un calculateur de coûts permettant d’optimiser l’efficacité dès les premières étapes du cycle de développement.
Un déploiement stratégique dans les data centers Azure dès 2026
Grâce à ces investissements, Microsoft explique que des modèles d’IA fonctionnaient sur Maia 200 quelques jours seulement après l’arrivée des premières puces conditionnées. “Le délai entre le premier silicium et le déploiement du premier rack en datacenter a été réduit de plus de moitié par rapport à des programmes d’infrastructure IA comparables”, annonce Scott Guthrie.
Microsoft prévoit de déployer Maia 200 dès aujourd’hui dans sa région de datacenters US Central, près de Des Moines (Iowa). La région US West 3, près de Phoenix (Arizona), suivra prochainement, et d’autres régions lui emboîteront le pas.
Nvidia est smed
Microsoft franchit ainsi un cap stratégique : pour la première fois, il dispose d’un accélérateur propriétaire pour l’inférence qui soit réellement compétitif face aux meilleures puces de Nvidia, aux TPU de Google et aux puces Trainium d’AWS.
Là où Nvidia reste dominant par son écosystème logiciel et sa polyvalence, Maia 200 est optimisé de bout en bout pour un objectif précis : générer des tokens plus vite et moins cher à très grande échelle. Et par rapport aux TPU de Google et aux Trainium d’Amazon, Microsoft revendique un avantage clair sur les formats basse précision (FP4/FP8), devenus centraux pour les grands modèles modernes.
La vraie rupture n’est pas seulement la performance brute, mais l’intégration verticale : puce, réseau, refroidissement, SDK et services cloud sont conçus ensemble, ce qui permet d’optimiser le coût total par requête, pas seulement les FLOPS. En pratique, cela donne à sa branche cloud, Azure, un levier direct pour proposer des services IA plus compétitifs, réduire sa dépendance à Nvidia et ajuster finement son infrastructure aux besoins de modèles à venir.


