Ad image

Oubliez Blackwell, Nvidia annonce des performances d’inférence 10 fois supérieures pour Rubin

Service Com'
Lu il y a 6 minutes


La plateforme Rubin a été repensée de A à Z, aussi bien sur le plan de la connectivité que du design des racks. Les premiers systèmes seront disponibles au second semestre 2026.

Pas de GeForce au CES cette année, mais une plateforme que le monde entier attend : Rubin, la prochaine génération de système pour l’intelligence artificielle de Nvidia. Celle-ci est désormais en production, avec les premières livraisons prévues dès le second semestre 2026. Elle est disponible en deux versions : HGX Rubin NVL8 (serveur avec 8 GPU) et la vraie star du show, Rubin NVL72 (rack avec 72 GPU et 36 CPU).

Alors que les GPU Blackwell s’arrachent à prix d’or (en particulier les GB300), Nvidia ayant du mal à répondre à la demande massive du marché, Rubin est garanti d’entretenir la frénésie, voire de l’amplifier, avec la promesse d’une inférence 10 fois moins chère (pour Kimi K2-Thinking 32K/8K) et d’un temps d’entraînement divisé par quatre pour les modèles par “mixture of experts” (MoE).

Un système repensé de A à Z

Nvidia explique ces gains de performances extrêmes par un codesign agressif des six processeurs du système : le CPU Vera, le GPU Rubin, le DPU Bluefield 4, et les solutions de connectivité NVLink 6, ConnectX-9 et Spectrum-6. Le développement de Rubin a pris trois ans et avait commencé avant même l’entrée en production de Blackwell.

Performances Nvidia Rubin NVL72
Performances Nvidia Rubin NVL72

Vera a été conçu spécifiquement pour le raisonnement agentique, d’après Nvidia. Il est composé de 88 coeurs Olympus (Armv9.2). Rubin fournit jusqu’à 50 petaFLOPS de puissance de calcul en NVFP4 pour l’inférence, notamment grâce à la troisième génération du moteur de transformers de Nvidia. Sur scène, Jensen Huang a rappelé que NVFP4 n’est pas “juste” du FP4, mais un système qui adapte dynamiquement la précision directement dans le processeur grâce au moteur de transformers en question.

Spécifications du GPU Nvidia Rubin
Spécifications du GPU Nvidia Rubin

Cela lui permet de fournir 5 fois les performances de Blackwell en inférence, pour seulement 1,6 fois plus de transistors (Il y a 336 milliards de transistors dans le GPU Rubin et 227 milliards dans le CPU Vera). Une parade à “la fin de la loi de Moore”, thématique chère à Jensen Huang, mais aussi une innovation parmi tant d’autres qui assoit la domination de Nvidia sur le secteur.

NVLink 6 permet de connecter chaque GPU avec une bande passante de 3,6 To/s, soit 260 To/s pour un rack Rubin NVL72. Au sujet du rack, il a été complètement repensé pour être plus modulaire et se passer de câbles et de ventilateurs. Il tourne à 100% en refroidissement liquide. Nvidia avance que l’assemblage et les interventions sont 18 fois plus rapides que sur les racks Blackwell. Le système dispose par ailleurs d’outils pour vérifier son bon fonctionnement en temps réel et éviter les pannes handicapantes.

Bluefield-4, le composant sous-estimé

L’une des grandes annonces de la conférence est l’existence de Bluefield-4, la nouvelle génération de processeur dédié au traitement des données de Nvidia. Jensen Huang la présente comme une “plateforme de stockage mémoire de contexte d’inférence”.

Spécifications de Nvidia BlueField-4
Spécifications de Nvidia BlueField-4

L’argument est que le besoin en matière de mémoire contextuelle ne fait qu’augmenter (comme en témoigne les fenêtres contextuelles de plus en plus grandes des LLMs) et qu’il n’est plus possible de tout stocker dans la mémoire HBM des systèmes. La capacité d’avoir une vaste mémoire contextuelle et de partager celle-ci (le “key-value cache”) entre différents clusters est l’une des clés des gains de performances que rapporte Nvidia.

Stockage en mémoire contextuelle Nvidia NVL72
Stockage en mémoire contextuelle Nvidia NVL72

Autre innovation permise par Bluefield-4 et non des moindres : le chiffrement de toutes les données, tout au long du traitement (au repos et en transit, et dans le CPU et le GPU). BlueField-4 introduit également ASTRA (Advanced Secure Trusted Resource Architecture), une architecture qui permet un point de contrôle unique pour les environnements d’IA à grande échelle, même répartis sur plusieurs infrastructures.

Les prétendants se pressent au balcon

Preuve de l’hégémonie de Nvidia, toutes les entreprises du secteur (du moins, celles qui comptent) sont déjà de futurs acheteurs de Rubin. A commencer par les hyperscalers : Amazon Web Services (AWS), Microsoft, Google, Meta et Oracle Cloud Infrastructure. Suivi des équipementiers comme Dell, HPE, Lenovo, Supermicro et Cisco.

Sans oublier les fournisseurs neo-cloud CoreWeave, Nebius, Nscale et Lambda. Et bien sûr les laboratoires de modèles : OpenAI, Anthropic, Cohere, Mistral AI, Runway, Thinking Machines ou Black Forest Labs. Auxquels on peut rajouter Cursor, Perplexity, Harvey, OpenEvidence et xAI.

Spécifications Nvidia NVL72
Spécifications Nvidia NVL72

L’entreprise de Jensen Huang se paie même le luxe de citer les commentaires dithyrambiques de Sam Altman, Dario Amodei, Mark Zuckerberg, Elon Musk, Satya Nadella, Sundar Pichai, Matt Garman (AWS), Clay Magouyrk (Oracle), Michael Dell, Yuanqing Yang et Antonio Neri. Une démonstration de force qui rappelle à d’aucuns que les accélérateurs propriétaires des hyperscalers ne signeront pas de sitôt la mort du GPU IA.



Source link

Share This Article
Laisser un commentaire