Ad image

Google publie MedGemma 1.5, un modèle compact, ouvert et exécutable en local pour l’imagerie médicale

Service Com'
Lu il y a 5 minutes



Avec cette version 1.5, Google apporte des ressources adaptées au secteur de la santé. Son modèle est désormais suffisamment compact pour fonctionner hors ligne, améliore les performances dans les cas d’utilisation de l’imagerie médicale et renforce les fonctionnalités de base pour le texte, les dossiers médicaux et les images 2D.

La santé occupe une place importante dans les recherches de Google. Sa branche Research publie régulièrement des articles scientifiques sur l’intelligence artificielle appliquée à la santé, DeepMind a développé AlphaFold, un modèle d’IA capable de prédire la structure de près de 200 millions de protéines et Alphabet, maison mère, soutient financièrement des initiatives de santé IA. Il n’est donc pas étonnant de voir Google poursuivre ses travaux en la matière avec la publication d’un nouveau modèle : MedGemma 1.5.

Une mise à jour attendue après un premier jet publié en mai 2025

En réalité, il s’agit d’une mise à jour de son modèle ouvert MedGemma avec une prise en charge améliorée de l’imagerie médicale. Le premier modèle MedGemma a été publié en mai 2025, lors de la conférence Google I/O, avec les versions MedGemma 4B multimodal et MedGemma 27B text-only disponibles dès cette date. Depuis, Google explique que “des millions de téléchargements” ont été recensés “et des centaines de variantes développées par la communauté et publiées sur Hugging Face”.

Aujourd’hui, le géant de la recherche publie donc cette version 1.5 à seulement 4 milliards de paramètres (contre 27 milliards pour la version précédente) avec l’ambition de donner aux développeurs toutes les clés pour adapter plus efficacement ce modèle à des applications impliquant plusieurs modalités d’imagerie médicale.

Une meilleure prise en charge des images médicales

MedGemma a été conçu comme un modèle multimodal : de fait, la première version existante de ce modèle prenait déjà en charge l’interprétation d’images médicales bidimensionnelles, notamment les radiographies thoraciques, les images dermatologiques, les images du fond d’œil et les patches d’histopathologie.

Avec MedGemma 1.5, Google affirme étendre la prise en charge de l’imagerie médicale à haute dimension, incluant “les représentations volumétriques tridimensionnelles issues du CT (scanner) et de l’IRM, ainsi que l’imagerie histopathologique en lames entières”.

Cela comprend aussi bien la compréhension de documents médicaux (extraction de données structurées à partir de comptes rendus d’analyses de laboratoire) que l’imagerie médicale longitudinale (analyse de séries temporelles de radiographies thoraciques).

Des performances améliorées

Cette version 1.5 s’accompagne également de plusieurs améliorations, notamment au niveau de la précision sur les capacités fondamentales liées au texte, aux dossiers médicaux et aux images 2D. Sur des benchmarks internes, la précision absolue de base de MedGemma 1.5 s’améliore de 3% par rapport à MedGemma 1 pour la classification des anomalies pathologiques en scanner, et de 14% pour la classification des anomalies en IRM, en moyenne sur l’ensemble des critères. De façon générale, la firme observe dans son analyse des performances plus élevées pour MedGemma 1.5 4B par rapport à MedGemma 1 4B.

Un point de départ solide pour le secteur

Si le modèle est loin d’être parfait, Google assure qu’il constitue une base solide et que les développeurs obtiendront de meilleurs résultats par un processus de fine-tuning de MedGemma sur leurs propres données.

La version 4B publiée aujourd’hui doit donc “offrir aux développeurs un point de départ optimal, peu gourmand en calcul et suffisamment léger pour fonctionner hors ligne”.

MedASR, un modèle de reconnaissance vocale spécialisé

Parallèlement, les équipes de Google ont planché sur MedASR, un modèle ouvert de reconnaissance vocale médicale (speech-to-text). Disponible sur Hugging Face et Vertex AI (l’idée étant que l’ensemble de ces modèles restent gratuits pour un usage de recherche et commercial), ce modèle a été spécialement fine-tuned pour la dictée médicale. Cette première version de MedASR permet de convertir la parole médicale en texte et s’intègre naturellement avec MedGemma pour des tâches de raisonnement avancées.

MedASR peut être utilisé à la fois pour transcrire la dictée médicale et pour générer des commandes vocales destinées à MedGemma. Comparé à Whisper large-v3, un modèle généraliste, MedASR présente 58% d’erreurs en moins sur les dictées de radiographies thoraciques et 82% d’erreurs en moins sur un benchmark interne de dictée médicale couvrant plusieurs spécialités et profils de locuteurs.



Source link

Share This Article
Laisser un commentaire