Ad image

Avec Rho-Alpha, Microsoft veut rendre les robots plus autonomes dans les tâches de manipulation

Service Com'
Lu il y a 3 minutes



Issu de la famille de modèles vision-langage Phi de Microsoft, Rho-alpha permet à des systèmes robotiques de traduire des instructions en langage naturel en actions physiques complexes, notamment pour des tâches de manipulation. Son principal atout : il apprend en continu grâce aux interactions et aux corrections humaines.

La branche Research de Microsoft accélère sur la robotique et plus particulièrement sur les tâches de manipulation. Preuve en est avec son tout dernier modèle, Rho-alpha, issu de la série Phi de modèles vision-langage de la firme. Disponible dès à présent via un programme d’accès anticipé à la recherche dédié, et plus tard via Microsoft Foundry, ce modèle traduit des commandes en langage naturel en signaux de contrôle pour des systèmes robotiques réalisant des tâches de manipulation bimanuelle.

Un modèle qui intègre le toucher et une compréhension vision-langage

Il peut être décrit comme un modèle VLA+, en ce qu’il étend l’éventail des modalités perceptives et d’apprentissage au-delà de celles habituellement utilisées par les VLA. Rho-alpha intègre donc le toucher, enrichi par une compréhension vision-langage, grâce à un processus de co-entraînement reposant sur des trajectoires issues de démonstrations physiques et de tâches simulées, combinées à des données de questions-réponses visuelles à l’échelle du Web.

A terme, Microsoft prévoit d’utiliser ce même schéma pour étendre le modèle à d’autres modalités de capteurs, sur une grande variété de tâches du monde réel. Il est intéressant de noter que l’équipe chargée du développement de ce modèle a créé un pipeline d’entraînement qui génère des données synthétiques via un processus fondé sur l’apprentissage par renforcement, et qui s’appuie sur le framework ouvert Isaac Sim de Nvidia. A ces trajectoires simulées sont combinées des jeux de données commerciaux et librement accessibles issus de démonstrations physiques.

Une amélioration en continu

Microsoft indique œuvrer afin que Rho-alpha s’améliore en continu lors de son déploiement, en apprenant à partir des retours fournis par des humains. Pour l’heure, plusieurs vidéos sont disponibles, montrant comment des opérateurs humains peuvent remettre les robots sur la bonne trajectoire à l’aide de dispositifs de téléopération intuitifs, tels qu’une souris 3D, correctifs à partir desquels Rho-alpha apprend pour mieux s’adapter aux futurs scénarios. Le modèle est actuellement évalué sur des configurations à double bras et sur des robots humanoïdes.

Rho-alpha de Microsoft marque ici une avancée dans le sens où il dépasse les VLA classiques en intégrant le toucher, et bientôt la force, en plus de la vision et du langage. Il cible directement la manipulation bimanuelle, l’un des problèmes les plus complexes et encore peu maîtrisés en robotique. Microsoft pense ce modèle comme une brique fondationnelle, adaptable à différents robots et usages industriels.



Source link

Share This Article
Laisser un commentaire