Ad image

Mistral annonce sa nouvelle famille de modèles Mistral 3, “les meilleurs modèles open source du marché”

Service Com'
Lu il y a 11 minutes


La pépite française dit faire mieux que les américains et les chinois en matière de modèles ouverts avec Mistral Large 3, son nouveau modèle MoE de référence, et la famille Ministral 3, qui se destine aux applications “at the edge”, du smartphone à l’automobile en passant par les robots et les drones.

Mistral AI annonce la sortie de sa nouvelle famille de modèles d’intelligence artificielle ouverts, Mistral 3, ce 2 décembre 2025. La start-up française les décrit comme des “frontier models”, c’est-à-dire comme ayant des performances de pointe, dignes des meilleurs modèles d’IA du marché.

En tête de cortège se trouve Mistral Large 3, que la société présente comme “le nouveau standard” pour les modèles ouverts. Comprendre qu’il fait mieux qu’OpenAI avec GPT-États-Unis ou Google avec Gemma, et que les chinois DeepSeek ou Comme. Sur les benchmarks de référence, Mistral Large 3 (675B) obtient 85.5 sur MMMLU (8 langues) et 43.9 sur GPQA-Diamond, battant DeepSeek-3.1 et Kimi-K2. Il atteint des scores de 23.8 sur SimpleQA, 52.0 sur AMC et 34.4 sur LiveCodeBench.

Repères Mistral Large 3
Repères Mistral Large 3

Outre les performances, Mistral Large 3 se démarque par le fait d’être multimodal, c’est-à-dire qu’il gère le texte et les images en entrée (les autres ne gèrent que le texte), mais aussi d’être multilingue.

Des modèles conçus pour être multilingues

Mistral insiste sur ce point : “la plupart des benchmarks sont en anglais et les laboratoires d’IA se concentrent souvent dessus, mais nous voulions nous assurer que Mistral 3 soit aussi bon dans les autres langues,” commente Guillaume Lample, cofondateur et Chief Scientist de Mistral AI. La start-up ne nous a pas communiqué de liste complète des langues prises en compte, mais indique que le modèle a été entraîné sur “toutes les langues de l’Union européenne” et “de nombreuses langues asiatiques”.

Mistral Large 3 est un modèle dit “Mixture of Experts” (MoE), c’est-à-dire qu’il utilise plusieurs réseaux de neurones pour “découper” un problème et mieux l’appréhender. Cette approche permet d’accélérer la phase de pré-entraînement du modèle et donc d’atteindre des performances équivalentes à des modèles denses, mais avec moins de puissance de calcul. Elle résulte également en une inférence plus rapide une fois le modèle entraîné.

41 milliards de paramètres actifs

Mistral AI s’était déjà fait remarqué en 2023 avec les modèles MoE Mixtral 8x7B et 8x22B et Mistral Large 3 se situe donc dans leur continuité. Il compte 41 milliards de paramètres actifs pour 675 milliards de paramètres au total et une fenêtre contextuelle de 256 000 tokens. Son post-entraînement l’a optimisé pour la multimodalité, le suivi d’instructions et le travail dans de longs contextes.

Mistral Large 3 est aussi particulièrement flexible et peut être facilement adapté à diverses tâches, les experts étant spécialisés dans des domaines différents. La start-up le positionne sur des cas d’usage classiques : assistant personnel, aide au développement informatique, analyse de documents, création de contenu (texte et visuel), et création d’agents.

Une version de Mistral Large 3 “avec raisonnement” à venir

Mistral Large 3 sera évidemment déployé dans Le Chat, l’assistant à l’usage général de Mistral AI “qui reste un excellent démonstrateur pour nous”confie Guillaume Lample, et mis à profit dans ses autres projets, notamment ceux récemment annoncés avec SAP. A noter par ailleurs qu’une version “Reasoning” de Mistral Large 3 sera publiée “dans un mois” d’après le cofondateur.

Interrogé par L’Usine Digitale sur les World Models (LE sujet du moment), Guillaume Lample explique que Mistral s’y intéresse, mais que ce n’est pas la priorité pour l’instant. “Nous nous intéressons toujours aux innovations prometteuses, mais cela reste un sujet de recherche pour le moment.”

Neuf modèles Ministral 3 pour adresser tous les cas d’usage

L’autre première pour Mistral est la sortie d’une famille entière de modèles. En plus de Mistral Large 3, c’est pas moins de neuf modèles Ministral 3 qui sont mis à disposition, eux aussi multimodaux (sur la vision) et multilingues. De quoi couvrir “toutes les tailles et tous les niveaux de capacités”, y compris pour des usages comme la robotique, l’automobile, les drones ou l’IoT.

Dans le détail, les modèles Ministral 3 sont disponibles en trois tailles (14 milliards, 8 milliards et 3 milliards de paramètres) et dans trois variantes : Base (pré-entraîné), Instruct (optimisé pour le chat), et Reasoning (pour la résolution de problèmes complexes). Les développeurs et entreprises sont libres de choisir la version qui convient le mieux à leur besoin.

Référentiel Ministral 3
Référentiel Ministral 3

Mistral AI avance que ses modèles Ministre 3 ont “des performances supérieures ou égales aux meilleurs modèles ouverts du marché” tout en étant plus économes en tokens pour une tâche équivalente. Ils ont notamment des fenêtres contextuelles de 128K à 256K tokens suivant leur taille. Ministral3 14B Instruct dépasse ainsi largement Gemma 12B Instruct mais aussi Qwen3-VL 8B Instruct sur GPQA Diamond Accuracy.

Les petits modèles, le futur de l’IA générative ?

En clair, Mistral AI veut être dans tous les appareils, au plus près des données, du smartphone à la ligne d’assemblage en usine. Ministral 3 peut ainsi tourner sur un seul GPU avec 4 Go de VRAM dans sa version la plus légère, quantifiée en FP4.

Une approche qui permet une latence et un coût réduits, une utilisation offline en cas de besoin, ainsi bien sûr que des performances mieux adaptées à un domaine d’application spécifique. “Les petits modèles sont les plus populaires dans le milieu de l’open source car ils sont simples à déployer mais aussi plus faciles à fine-tuner,” souligne Guillaume Lample.

Si Mistral AI met l’accent sur ces petits modèles, c’est car ses clients (actuels et prospectifs) expriment un vrai besoin. “La demande est forte. Dans l’automobile par exemple, on nous demandait récemment un modèle pouvant gérer l’audio.” L’une des forces du français est d’ailleurs de pouvoir adapter ses modèles pour tourner sur de petits GPU (pas forcément de Nvidia) voire même sur des CPU.

Mistral AI reste un champion de l’open source

Le choix de l’ouverture (open weights sous licence Apache 2.0) alors que les précédents modèles de pointe de la start-up étaient fermés tient à la réalisation que “nous ne vendons pas le modèle en tant que tel, ce n’est qu’une petite partie de la solution, nous vendons tout ce qui va par-dessus ensuite. Les workflows agentiques, la génération de données synthétiques, la capacité d’accéder au contexte de l’entreprise… C’est tout cela qui est difficile”commente Guillaume Lample. Sans parler des modèles fabriqués sur-mesure.

En conséquence, le cofondateur nous a déclaré que Mistral AI ne vendra probablement plus de modèles à l’avenir, l’open source étant par ailleurs “dans son ADN” et partie intégrante de sa mission. Il précise par ailleurs que Mistral publiera aussi des versions quantifiées en FP8 et FP4 de ses modèles, ce que ne font pas tous les acteurs du marché.

La nécessité de créer ses propres modèles

Ce choix de l’ouverture ne signifie cependant pas que Mistral AI arrêtera de développer ses propres modèles d’IA à l’avenir. Questionné par L’Usine Digitale sur la possibilité d’utiliser des modèles externes puisqu’ils ne sont qu’une partie de l’offre, Guillaume Lample tempère en précisant que créer ses propres modèles donne beaucoup plus de latitude à Mistral et ses clients car ils peuvent ensuite être customisés “en profondeur” et pas seulement en faisant du RAG ou “par un peu de fine-tuning”.

“Nos clients viennent nous voir justement pour notre capacité à créer et adapter nos propres modèles en profondeur, rappelle le cofondateur. Et puis nous ne voulons pas nous retrouver dépendants d’acteurs externes. DeepSeek n’est pas multimodal par exemple, donc se reposer sur les autres limiterait nos capacités.”

L’open source comme vecteur d’une “intelligence distribuée”

Au sujet des acteurs chinois comme DeepSeek justement, Mistral AI se dit heureux d’avoir autant de personnes que contribuer à la communauté open source. “Lorsque des chercheurs publient un modèle ouvert, ils publient aussi leurs recherches en parallèle et les enseignements qu’ils en ont tiré. Cela permet à la discipline toute entière de s’améliorer,” commente Guillaume Lample.

“Nous tirons bénéfice des recherches d’autres laboratoires d’IA et nous espérons qu’ils tirent aussi des bénéfices de nos recherches !” Il donne l’exemple de l’approche par “mixture of experts” dont Mistral AI fut pionnier et qui est devenue courante. Et pour être clair, cela ne veut pas dire qu’ils réutilisent des morceaux de modèles chinois, mais qu’ils peuvent s’inspirer de leur stratégie d’entraînement par exemple ou au contraire éviter des approches qui ont échoué chez d’autres.

Un discours rafraîchissant à l’heure où d’anciens chantres de l’ouverture comme Meta ont opéré un virage à 180°, et ou le discours des sociétés américaines en général est fermement axé sur l’idée d’une compétition quasi-civilisationnelle pour la domination du marché. Par opposition, Mistral présente la vision d’une ère à venir de “l’intelligence distribuée” grâce à l’open source, où créer le plus gros modèle possible ne sera pas forcément la meilleure stratégie.



Source link

Share This Article
Laisser un commentaire