Centre de recherche biomédical français, fondé par Louis Pasteur en 1887, l’Institut Pasteur est une institution de renommée internationale qui mène des travaux scientifiques sur les maladies infectieuses et la santé publique. L’un de ses projets de recherche « IndexThePlanet » consiste à analyser et à cartographier l’ADN de l’ensemble du monde vivant, à partir d’une base de données publique.
Cette dernière représentant quelques 20 pétaoctets, le projet s’est avéré plus complexe que prévu et nécessitait une infrastructure dédiée, capable de supporter autant de données ADN. À titre de comparaison, cela correspond à peu près à l’intégralité des données hébergées par YouTube pendant la première décennie du service.
Un calcul réalisé en un temps record
Un calcul réalisé en un temps record
« Pour bien comprendre l’enjeu de nos travaux, il faut considérer que cette base est une sorte d’immense bibliothèque, mais dans laquelle toutes les pages de tous les livres auraient été dispersées. L’enjeu, c’est de redonner de la cohérence à ces données en classant méthodiquement l’ensemble des fragments d’ADN pour les reconstituer à la fois à l’échelle d’un être vivant, mais également en prenant en compte son environnement », resitue Rayan Chikhi, chercheur en bio-informatique au sein de l’Institut Pasteur.
C’est pour cette raison que l’Institut s’est donc tourné vers un fournisseur cloud de référence : AWS. Ce dernier a mis à la disposition des chercheurs un cluster atteignant 2,18 millions de vCPUs pour les instances Graviton pour mener à bien ce travail de titan. « La préparation des opérations a duré près d’un an, pour parvenir in fine à un batch de calcul de 30 heures seulement, signale le chercheur. A titre de comparaison, nous avons estimé qu’il aurait fallu près de 30 millions d’heures, soit 3400 ans, à un ordinateur de bureau pour réaliser un tel calcul ».
Une série de travaux pour aboutir à ce résultat
Une série de travaux pour aboutir à ce résultat
« Le projet IndexThePlanet est en fait le successeur d’un premier travail de recherche mené en commun avec une équipe internationale, le projet Serratusqui a permis d’identifier de nouvelles espèces de coronavirus et d’autres virus à ARN »note Rayan Chikhi. Un projet qui a permis de cartographier dix fois plus de espèces qu’auparavant, pour un total de l’ordre de 3 pétaoctets de données analysées. De ce premier projet réussi est donc né un autre : IndexThePlanet.
L’ambition est forte : « Nous avons décidé d’aller plus loin en élargissant le spectre à l’ensemble des virus présents sur terre, en analysant l’ADN de l’intégralité du monde vivant connu, précise le chercheur. Et d’ajouter : Naturellement, cela représente un défi considérable en termes de puissance de calcul puisqu’il s’agissait cette fois de traiter un volume de données plus de six fois supérieur à celui du projet Serratus ».
Une palette d’outils AWS et un accompagnement technique
Une palette d’outils AWS et un accompagnement technique
Pour mener à bien leurs recherches, les équipes de l’Institut Pasteur ont eu accès à une base de données mondiale, stockée et mise à disposition par AWS via son programme Registry of Open Data. Celle-ci contient les données non structurées de séquençage de l’ensemble des espèces vivantes recensées sur Terre. Le projet IndexThePlanet repose donc sur deux phases distinctes : tout d’abord « l’analyse globale » de cette base de données afin de la rendre lisible et exploitable, puis la mise à disposition d’un moteur de recherche capable d’évoluer de façon rapide et efficace dans l’index créé.
AWS a mis en place certaines astuces pour s’assurer de la réussite du projet. En premier lieu, la programmation de calculs durant le weekend afin d’accéder à des ressources moins sollicitées, « la taille colossale des ressources ayant mobilisé une partie conséquente des ressources disponibles », concède Dorian Schaal d’AWS.
A date, deux jeux de données tirés de ce projet existent : l’un, complet, de 2.2 pétaoctets, l’autre plus compact d’environ 400 téraoctets qui servira de base au futur moteur de recherche génomique. Côté calendrier, l’Institut Pasteur mise sur une mise en service du moteur de recherche à l’horizon 2026. Il doit permettre de connaître avec précision l’entièreté des virus, puis des bactéries, présents dans la base de données mondiale. Rayan Chikhi reste toutefois pragmatique : « Cette base reste encore largement incomplète au regard de la diversité terrestre et, malgré son succès, ce projet de recherche ne permettra de passer que de 0,01 à 0,1% de virus connus ».