Le domaine médical se transforme. Décidé à intégrer les dernières technologies, le secteur regarde avec attention ce que les acteurs technologiques proposent pour moderniser le quotidien des professionnels de santé. Entre autres : l’intelligence artificielle. La sortie de l’outil de reconnaissance vocale Whisper – signé OpenAI –, a ainsi été un tournant décisif pour un certain nombre d’hôpitaux et de centres médicaux et pour des entreprises ayant décidé de construire leur plateforme à partir de cet outil.
C’est le cas de Nablastart-up parisienne qui a décidé de changer de voie et de miser sur l’intelligence artificielle pour pousser un produit aguicheur sur un marché en plein boom. Ainsi, en mars 2023, la société a annoncé le lancement de Nabla Copilot, un assistant « conçu pour alléger la charge administrative imposée aux prestataires et réduire l’épuisement professionnel des cliniciens ».
Ce dernier s’appuie sur des capacités de génération de notes basées sur l’IA, la reconnaissance du codage médical et des intégrations fluides de plateformes de DSE (dossier de santé électronique), notamment grâce à Whisper.
La solution poussée par Nabla sujette à risques
La solution poussée par Nabla sujette à risques
Si les chiffres semblent montrer que l’entreprise a misé sur le bon cheval – plus de 30 000 cliniciens et 40 systèmes de santé, y compris la clinique Mankato dans le Minnesota et l’hôpital pour enfants de Los Angeles – l’outil présente un problème de taille : il est sujet aux hallucinations. Pourtant, il a été fine-tuned sur le langage médical pour transcrire et résumer les interactions des patients, a déclaré Martin Raison, directeur technique de Nabla, comme le rapporte Actualités AP.
Les responsables de l’entreprise ont déclaré qu’ils étaient conscients que Whisper pouvait halluciner et qu’ils s’attaquaient au problème. Seulement voilà, impossible de vérifier si la transcription générée par l’IA de Nabla est juste par rapport à l’enregistrement original car l’outil de Nabla efface l’audio original pour des « raisons de sécurité des données ». Il semble donc impossible de savoir à quel point l’outil hallucine.
1% des transcriptions audio contiennent des hallucinations
1% des transcriptions audio contiennent des hallucinations
Pourtant, le problème existe bel et bien. Cinq chercheurs de l’université Cornell, l’université de Washington et d’autres universités ont, dans une étudedécouvert qu’environ 1% des transcriptions audio contiennent des bribes de phrases ou des phrases entières hallucinées qui n’existent sous aucune forme dans l’audio sous-jacent.
Plus intéressant encore, l’analyse thématique du contenu halluciné par Whisper révèle que 38% des hallucinations incluent des préjudices explicites tels que la perpétuation de la violence, la création d’associations inexactes ou l’implication d’une autorité fausse.
Une amélioration observée après une mise à jour de Whisper fin 2023
Une amélioration observée après une mise à jour de Whisper fin 2023
« En avril et mai 2023, les transcriptions générées à partir de 187 segments audio ont produit 312 transcriptions contenant des hallucinations. En moyenne, 1,4% des transcriptions de notre dataset contenaient des hallucinations. Parmi ces hallucinations, 19% incluaient des préjudices perpétuant la violence, 13% incluaient des préjudices d’associations inexactes, et 8% incluaient des préjudices de fausses autorités », détaillent les chercheurs dans leur étude.
En décembre 2023, de nouveaux tests de Whisper sont réalisés sur les mêmes segments audio. Ils montrent une amélioration significative, avec seulement 12 des 187 segments audio continuant à produire des hallucinations. « Cette amélioration est probablement due aux mises à jour de Whisper en novembre 2023 »en concluent les chercheurs.
Et ils ne sont malheureusement pas les seuls à démontrer cela. Un ingénieur en apprentissage automatique a ainsi déclaré avoir découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions Whisper qu’il a analysées. Un autre développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu’il a créées avec l’outil.
Pas de remise en cause chez OpenAI
Pas de remise en cause chez OpenAI
A terme, ce taux d’erreur pourrait toutefois conduire à un nombre croissant de transcriptions erronées et fausser le gain de temps et d’efficacité recherché par les utilisateurs, qu’il s’agisse du secteur médical ou d’un autre. Et si certains souhaitent se tourner vers OpenAI pour avoir quelqu’un à blâmer, l’entreprise a pensé à se protéger.
Elle recommande ainsi de ne pas utiliser l’API Whisper dans des « contextes de prise de décision à enjeux élevés, où des défauts de précision peuvent entraîner des défauts prononcés dans les résultats ». De même, une liste des domaines à haut risque a été faite afin de se dédouaner de toute utilisation détournée de son outil.