
Cela fera-t-il du bien à l’écosystème IA français ? Gradium fait son entrée sur le marché de l’intelligence artificielle vocale avec la vocation d’être compétitif face aux plus grands. La start-up génère déjà de premiers revenus avec des clients issus de secteurs variés. Nous avons échangé avec l’un de ses fondateurs, Neil Zeghidour.
En France, il y a Mistral AI. Et désormais Gradium. Créée par un quatuor composé de Neil Zeghidour (Meta/Google DeepMind/Kyutai), Olivier Teboul (Google Brain), Laurent Mazaré (Google DeepMind/Jane Street/Kyutai) et Alexandre Défossez (Meta/Kyutai), la start-up annonce son lancement officiel ce 2 décembre après un peu plus de trois mois en mode “stealth” avec un objectif : redéfinir l’IA vocale.
Et elle se donne les moyens de ses ambitions : elle a déjà levé 60 millions d’euros en seed. Le tour de table, mené par FirstMark Capital et Eurazeo, a attiré, entre autres, DST Global Partners, Eric Schmidt (ancien CEO et Chairman de Google), Xavier Niel (Iliad), Rodolphe Saadé (CMA CGM), Korelya Capital, Amplify Partners, ainsi que d’autres investisseurs.
Gradium, suite logique du projet de recherche Kyutai
Il est intéressant de voir que les investisseurs du projet Kyutai ont décidé de soutenir cette nouvelle équipe. Pour Neil Zeghidour, rencontré lors du salon Adopt AI à Paris fin novembre, Gradium est la suite logique au travail de recherche réalisé chez Kyutai. “Nous avons réalisé notre mission de recherche ouverte et de modèle open source là-bas. Puis, nous avons commencé à recevoir de plus en plus de sollicitations de grandes entreprises qui étaient intéressées par nos modèles mais qui voulaient que ces derniers soient multilingues et de meilleure qualité,” retrace-t-il.
“Cela ne faisait pas partie de la mission de Kyutai de faire ce dernier kilomètre avec les modèles disponibles en open source qui sont avant tout des prototypes de recherche et non pas des vrais produits.”
Motivé par un environnement favorable à la création de start-up et aux levées de fonds – certaines en se basant sur ces mêmes modèles open source – Neil Zeghidour explique avoir vu là “l’opportunité de faire de meilleurs produits de voix en poussant notre travail jusqu’au bout, notamment pour découvrir plus de langues, avoir une meilleure latence”.
Un marché en pleine croissance
Gradium aspire donc à produire des modèles d’intelligence artificielle pour la transcription, la synthèse, la conversation “qui sont extrêmement compétitifs”, mais aussi généralistes, destinés à des clients de tout type. Le business model de la start-up consiste à vendre ces modèles à des entreprises qui vont ensuite se charger d’adapter lesdits modèles à des secteurs spécfiques.
“Parmi nos clients, il y en a qui font de la prise de rendez-vous médicale au téléphone, du customer center, du sondage au téléphone. Il y a aussi des studios de jeux vidéo qui veulent faire parler des personnages dans leurs jeux. Il y a l’industrie du divertissement qui veut faire des vidéos avec de la voix IA, des publicités avec de la voix IA. Il existe vraiment toute une quantité de verticales qui sont intéressées par ce qu’on fait“, poursuit Neil Zeghidour, ajoutant que les Etats-Unis devraient représenter à terme une “partie considérable” du marché de Gradium.
Des revenus dégagés en l’espace de quelques semaines
Résultat, seulement quelques semaines après sa création, l’entreprise affirme avoir généré de premiers revenus grâce à ses deux produits : un modèle de transcription et un modèle de synthèse vocale en temps réel. “Nous combinons une expressivité ultra-réaliste, une transcription précise et une interaction à très faible latence, le tout à un prix qui rend enfin possible des interactions vocales naturelles à grande échelle”, assume son représentant.
La plateforme assure un support multilingue en anglais, français, allemand, espagnol et portugais, avec d’autres langues à venir. Elle propose des formules flexibles allant de l’accès développeur aux déploiements à grande échelle pour les entreprises.
Recruter oui, mais en restant “sélectifs”
Basée à Paris, l’équipe compte aujourd’hui 9 personnes et prévoit de renforcer ses équipes, même si Neil Zeghidour admet que l’objectif, “c’est d’essayer de rester le plus petit possible, le plus longtemps possible”. A ses yeux, il y a un vrai débat autour de la valeur donnée aux talents. “Nous voulons rester très sélectifs sur le recrutement car nous pensons que ce n’est pas en augmentant la quantité de personnes que l’on crée de la valeur, c’est simplement en sélectionnant bien les gens”, ajoute-t-il.
A la question de savoir s’il s’agit d’une pique lancée à Meta et à sa stratégie – disons-le, redoutable – en matière de recrutement, Neil Zeghidour s’explique. “L’industrie de l’IA montre, avec l’explosion de la taille des équipes techniques chez les Big Tech, qu’au fond ce n’est pas vraiment la taille des équipes qui compte. Quand on entend parler aussi de compensation financière considérable, la raison pour laquelle elles atteignent de tels niveaux est justement qu’il y a quelques personnes qui, en tant qu’individu, peuvent changer la phase de l’IA”.
Il estime que ces personnes recherchent « l’endroit qui leur permet de s’améliorer, d’apprendre et d’avoir le plus d’impact possible. Faisant l’analogie avec des athlètes de haut niveau, il estime que “ces talents en IA, c’est du talent rare, et il faut savoir leur fournir les conditions de travail, la mission et l’impact qui est à la hauteur de leur talent”.
La puissance de calcul et les jeux de données, deux autres enjeux à financer
Les financements récoltés doivent également servir à financer deux choses essentielles : la puissance de calcul et les jeux de données. Sur le premier point, une centaine de GPU doivent suffire pour l’heure, les modèles développés plafonnant plus ou moins à un milliard de paramètres.
“Ce sont des modèles peu coûteux à entraîner. Nous pouvons en entraîner beaucoup en parallèle. En réalité, cela permet à une petite structure comme nous de rentrer en compétition avec les hyperscalers, le coût d’entrée en matière de ressources étant largement inférieur”.
Sur le second point, Neil Zeghidour explique que Gradium va payer des acteurs, “soit pour qu’ils offrent leur voix à nos produits, soit pour qu’ils enregistrent des émotions spécifiques, des textes spécifiques avec lesquels on va pouvoir entraîner nos modèles”.
Gradium profite par ailleurs des ressources du laboratoire Kyutai, la collaboration entre les deux équipes étant toujours en place, permettant au second de bénéficier d’un accès continu à la recherche de pointe en IA générative audio, et, in fine, de transférer rapidement des innovations fondamentales vers des systèmes monnayables.


