Des agents d’intelligence artificielle viennent de se hisser parmi l’élite mondiale des compétitions de cybersécurité, rivalisant avec les meilleurs hackers humains lors de tournois ouverts.
Rejoignez-nous sur vos réseaux sociaux
Aucun spam. Désinscription en un clic. Votre vie privée est respectée.
L’entreprise Palisade Research a publié un rapport inédit sur le potentiel des IA dans le domaine de la cybersécurité offensive. Pour la première fois, des agents autonomes basés sur des modèles d’intelligence artificielle ont été intégrés à des compétitions internationales de type Capture The Flag (CTF), dans lesquelles les participants doivent résoudre des défis de hacking concrets. Résultat, les IA ont brillé : dans certains cas, elles se sont classées dans le top 5 % des participants humains. L’étude explore l’idée que les performances réelles de l’IA ne peuvent être pleinement révélées que dans des environnements ouverts, collaboratifs et compétitifs. Ces expériences pourraient redéfinir la manière dont le potentiel de l’intelligence artificielle est évalué et audité à l’échelle mondiale.
Des intelligences artificielles en tête des compétitions
Le rapport publié en mai 2025 marque un tournant dans l’histoire de la cybersécurité. Pour la première fois, des agents d’IA ont participé de manière autonome à des tournois CTF, où les compétences en hacking sont mises à rude épreuve. Ces compétitions, bien connues dans le milieu de la sécurité informatique, opposent des milliers de participants dans des défis de cryptographie, d’analyse de code, de rétro-ingénierie ou encore d’exploitation de vulnérabilités. ZATAZ vous présente (et anime) de nombreux CTF depuis des années. Et depuis trois ans, l’IA a débarqué en force dans les CTF. Exemple, en 2024, lors du CTF de Social Engineering du Def Con de Las Vegas et du Hackfest de Québec que j’ai gagné, l’IA était inclus dans les épreuves.
Lors du tournoi « AI vs Humans« , des agents conçus pour opérer sans intervention humaine ont atteint le top 5 % des scores. Plus encore, au cours de la compétition « Cyber Apocalypse » organisée par Hack The Box, à laquelle participaient plus de 8000 équipes professionnelles, les agents IA se sont hissés dans le top 10 %. Ces performances suscitent l’étonnement, d’autant plus qu’elles ont été obtenues dans des conditions de compétition en temps réel.
« Sur certaines épreuves, l’IA résolvait en quelques minutes des tâches qui mobilisent un humain expérimenté pendant près d’une heure« , précise le rapport.
Ce type de résultats confirme les observations récentes de plusieurs chercheurs : les modèles de langage actuels, s’ils sont correctement configurés, peuvent rivaliser avec des experts humains sur des problèmes techniques d’une durée allant jusqu’à 60 minutes.
Au cœur de l’expérience, une hypothèse simple : les tests internes menés en laboratoire sous-estiment systématiquement les capacités réelles des systèmes d’IA. Pour y remédier, les chercheurs ont appliqué un principe de crowdsourcing, laissant des équipes extérieures prendre en main les agents IA et les intégrer aux compétitions ouvertes. Ce mode d’évaluation, qualifié de « méthode d’élicitation », vise à libérer tout le potentiel du système en le confrontant à des scénarios imprévisibles, dans un environnement de forte pression.
L’idée est aussi de combler ce que les auteurs appellent le « evals gap », autrement dit le fossé entre les résultats de test standardisés et les performances que l’IA peut atteindre dans des contextes dynamiques et concrets. Contrairement aux benchmarks fermés, les compétitions CTF offrent une diversité de problèmes, une incertitude réelle et une dimension temporelle, autant d’éléments cruciaux pour jauger les compétences d’un système autonome.
« Le passage par les compétitions publiques est une façon plus honnête et reproductible d’évaluer ce que valent vraiment les IA« , estime Palisade dans son rapport.
Les IA ont particulièrement bien performé dans les domaines de la cryptographie et du reverse engineering, deux disciplines qui exigent rigueur logique, manipulation binaire et exploration systématique. Ces résultats laissent entrevoir des applications dans les tests de sécurité automatisés, mais aussi dans la détection avancée de failles.
Vers un audit public et transparent de l’intelligence artificielle
Au-delà des résultats techniques : comment auditer de manière crédible les capacités grandissantes de l’IA ? Jusqu’ici, les évaluations sont principalement effectuées par les entreprises elles-mêmes, dans des environnements fermés et avec des protocoles peu transparents. Or, cette opacité devient problématique alors que les IA gagnent en puissance et en autonomie.
Les auteurs du rapport défendent l’intégration systématique de « tracks IA » dans les compétitions déjà existantes. En insérant des agents autonomes dans les mêmes conditions que les joueurs humains, les organisateurs peuvent observer leurs performances dans un cadre rigoureux, compétitif et reproductible.
Cette démarche vise également à sensibiliser les décideurs politiques, les agences de régulation et les entreprises technologiques. À terme, les auteurs suggèrent que ce type de mécanisme pourrait devenir une forme de « certification par le défi« , un processus dans lequel une IA ne serait pas évaluée sur des métriques internes, mais sur sa capacité à résoudre des problèmes concrets dans un environnement contrôlé mais ouvert.
Une révolution dans la cybersécurité offensive ?
Le succès des IA dans les tournois CTF pourrait ouvrir un nouveau chapitre dans la cybersécurité offensive. Si les performances actuelles sont encore dépendantes de l’ingénierie humaine pour la configuration des agents, les marges de progression restent considérables. À mesure que les modèles deviennent plus puissants, leur autonomie dans les processus de résolution s’améliore.
Cela soulève des questions sensibles, notamment sur la dualité des usages. Un système capable de détecter et d’exploiter des vulnérabilités avec une telle efficacité pourrait, s’il tombait entre de mauvaises mains, être utilisé à des fins malveillantes. Les chercheurs n’ignorent pas ce risque, mais estiment qu’un audit public des performances est aussi un moyen de prévenir ces dérives en rendant visibles les avancées.
Rejoignez-nous sur vos réseaux sociaux
Aucun spam. Désinscription en un clic. Votre vie privée est respectée.