Le géant américain des semi-conducteurs franchit une nouvelle étape en publiant le premier modèle open source de raisonnement vision-langage-action dans la conduite autonome. Capable de décomposer chaque scénario tout en “réfléchissant” à chaque étape, Alpamayo-R1 est considéré par Nvidia comme un “composant essentiel” pour permettre d’atteindre l’autonomie de niveau 4.
À l’occasion de la conférence sur le machine learning NeurIPS, qui se tient cette semaine à San Diego (Californie), Nvidia a sorti un nouveau modèle source ouverte de raisonnement dédié au développement de solutions de conduite autonome. Il s’agit, d’après la firme, d’une première mondiale.
Gérer les scénarios routiers complexes et soudains
Baptisé Alpamayo-R1 (AR-1), du nom d’un pic montagneux péruvien particulièrement difficile à gravir, le modèle est de type vision-langage-action (VLA), ce qui signifie qu’il traduit les données visuelles issues des capteurs et instructions textuelles en actions de conduite. “Nvidia Drive Alpamayo-R1 intègre le raisonnement IA en chaîne de pensée avec la planification de trajectoire, un composant essentiel pour faire progresser la sécurité des véhicules autonomes dans des scénarios routiers complexes et permettre l’autonomie de niveau 4”précise l’entreprise américaine.
Nvidia AR-1 recueille ainsi des données tout au long du trajet, génère ce que Nvidia appelle “des traces de raisonnement»soit des réflexions sur pourquoi il a agi de la sorte, et utilise toutes ces informations pour planifier la trajectoire du véhicule. Chaque scénario est décomposé, et le meilleur itinéraire est sélectionné en fonction des données contextuelles. Ceci pourrait permettre aux véhicules de gérer des situations inhabituelles et difficilement appréhendables par les modèles actuels, comme les routes barrées sans panneaux de prévention préalables, les véhicules en double file sur piste cyclable ou les carrefours très fréquentés par les piétons.
Un guide pour aider les développeurs à s’emparer de Cosmos
Le modèle, post-entraîné avec des techniques d’apprentissage par renforcement (RL), est basé sur Cosmos Reasonun modèle vision-langage à 7 milliards de paramètres. Lancé par la firme en août, Cosmos Reason doit permettre aux robots et aux agents d’IA d’utiliser à la fois leurs connaissances passées et leur “bon sens” pour prendre des décisions. Alpamayo-R1 sera bientôt disponible sur GitHub et Hugging Face, mais quelques datasets utilisés pour l’entraînement et l’évaluation du modèle s’ont d’ores et déjà accessibles sur Hugging Face.
Pour permettre aux développeurs de s’approprier plus facilement les modèles de fondations mondiales (WFM) CosmosNvidia a en outre publié sur GitHub le “Cosmos Cookbook”. Ce guide comprend aussi bien des ressources d’inférence que des tutoriels et des workflow de post-entraînement avancés. “Il couvre toutes les étapes du développement, de la curation des données à l’évaluation des modèles, en passant par la génération de données artificielles”ajoute l’entreprise.
Ces annonces interviennent un mois après la sortie par Nvidia de Drive AGX Hyperion 10, sa dernière architecture permettant théoriquement à tout véhicule équipé d’une plateforme adéquate d’être autonome de niveau 4 (allure limitée et dans une zone prédéfinie). La firme de Santa Clara a été dans ce cadre sélectionnée par Uber pour l’aider à déployer 100 000 taxis autonomes dès 2027. Lucid et Stellantis devraient apporter plus d’un quart de la flotte.


