Ad image

AWS présente ses derniers serveurs équipés de puces Trainium3 pour des performances 4 fois supérieures

Service Com'
Lu il y a 5 minutes


Avec ses dernières puces d’IA, AWS dit réduire les durées d’entraînement de plusieurs mois à quelques semaines. Elles offrent jusqu’à 4,4 fois plus de performances de calcul et 4 fois plus d’efficacité énergétique que les UltraServers Trainium2. Les clients obtiennent un débit trois fois supérieur par puce et une latence divisée par quatre.

Amazon Web Services poursuit son travail d’optimisation de ses serveurs et s’appuie pour cela sur ses propres puces. Profitant de la foule rassemblée à re:Invent 2025 à Las Vegas – environ 60 000 personnes selon l’organisation – le géant du cloud a annoncé la disponibilité générale de ses puces Trainium3 gravées en 3 nm, qui vont désormais équiper ses serveurs Amazon EC2 Trn3 UltraServer.

Ces serveurs peuvent intégrer jusqu’à 144 puces Trainium3 dans un système unique, délivrant jusqu’à 362 PFLOPS FP8. Ils offrent jusqu’à 4,4 fois plus de performances de calcul et 4 fois plus d’efficacité énergétique que leurs prédécesseurs, les UltraServers Trainium2. Les clients bénéficient d’un débit 3 fois supérieur par puce et de temps de réponse quatre fois plus rapides, ce qui réduit les temps d’entraînement de plusieurs mois à quelques semaines, promet AWS.

Exit Inferentia, Trainium3 sert à la fois pour l’entraînement et l’inférence

Autre atout ? Elles peuvent servir à la fois pour l’entraînement et pour l’inférence de modèles d’IA. A ceux qui se demandent quel est l’avenir de la puce Inferentia d’AWS, qui comme son nom l’indique servait jusqu’alors à l’inférence ? Personne ne semble avoir la réponse parmi les équipes d’AWS sondées.

Matt Garman sur scène pour présenter les dernières puces TrainiumRD
Matt Garman sur scène pour présenter les dernières puces Trainium

Anthropic au premier rang des utilisateurs

En tout cas, un certain nombre d’utilisateurs ont déjà pu adopter ces puces, à commencer par Anthropic, Karakuri, Metagenomi, NetoAI, Ricoh et Splash Music qui observent une réduction des coûts d’entraînement et d’inférence allant jusqu’à 50%. De son côté, Decart, spécialisé dans la génération de vidéos et d’images à l’aide de modèles d’IA, obtient une inférence 4 fois plus rapide pour la génération vidéo en temps réel, à moitié moins cher que les GPU.

Pour les clients ayant besoin de passer à l’échelle, la firme assure que les EC2 UltraClusters 3.0 peuvent relier des milliers d’UltraServers contenant jusqu’à 1 million de puces Trainium, soit 10 fois plus que la génération précédente. L’objectif étant de rendre possible des projets auparavant tout simplement impossibles, qu’il s’agisse d’entraîner des modèles multimodaux sur des jeux de données importants ou d’exécuter de l’inférence en temps réel pour des millions d’utilisateurs simultanés.

Avec Project Rainier, AWS, au côté d’Anthropic, donne un aperçu de ce que cette interconnexion de puces peut donner : plus de 500 000 puces Trainium2 ont été connectées à date au sein du plus grand cluster de calcul IA au monde (cinq fois plus grand que l’infrastructure utilisée pour entraîner la génération précédente de modèles d’Anthropic et comptant 30 data centers).

Regard tourné vers la prochaine génération de Trainium

Le géant du cloud travaille déjà sur la conception de Trainium4, dont les performances devraient être significatives sur tous les plans, “notamment au moins 6x les performances en FP4, 3x les performances FP8, et 4x plus de bande passante mémoire” que les Trainium3.

Parallèlement, la firme mise sur une optimisation continue du hardware et du software pour qu’à l’avenir, les gains de performance soient toujours plus significatifs.

AWS Trainium 4 annoncées lors de re:Invent 2025RD
AWS Trainium 4 annoncées lors de re:Invent 2025 AWS Trainium 4 annoncées lors de re:Invent 2025

Il est intéressant de noter que Trainium4 est conçu pour prendre en charge la technologie NVLink Fusion de Nvidia, une interconnexion ultrarapide entre puces. Cette intégration permettra à Trainium4, Graviton, et à l’Elastic Fabric Adapter (EFA) de fonctionner ensemble de manière fluide au sein de racks MGX communs, offrant ainsi une infrastructure IA prenant en charge à la fois les serveurs GPU et Trainium.



Source link

Share This Article
Laisser un commentaire