Pour AlphaFold, l’IA de Google, 95 % du code de la vie n’a plus de secret 

Illustration AlphaFold.
Illustration AlphaFold.

Cela fait cinquante ans que les scientifiques essaient de déterminer les formes des protéines contenues dans le corps humain, soit environ 200 000, et si déterminantes à la vie humaine. Avec AlphaFold, le programme d’intelligence artificielle de Google, ces molécules essentielles à la vie n’auront bientôt plus de secret. Et l’industrie pharmaceutique s’en frotte les mains. 

Les protéines sont des molécules présentes dans toutes les cellules vivantes. Enzymes, hémoglobines, myosines, chaque protéine, dont le rôle est défini par sa structure tridimensionnelle, est essentielle aux processus biologiques. « Ce sont comme des fils de perles qui peuvent se plier dans tous les sens pour donner une forme unique en trois dimensions » explique Sameer Velankar, biologiste responsable du projet AlphaFold depuis 2021 pour l’Institut européen de bioinformatique (EMBL-EBI) à Hinxton au Royaume-Uni. « Chacune de ces protéines ne fonctionne que si elle peut se plier dans cette forme spécifique. Mais la difficulté est de savoir comment les protéines en viennent à se plier ainsi ». Cet obstacle occupe la communauté scientifique depuis près de cinquante ans. Mais avec le programme d’intelligence artificielle AlphaFold, développé par Deepmind, la filiale de Google à Londres, il est en passe d’être résolu. 

Guérir une maladie

« Comprendre la forme des protéines est crucial : le moindre petit changement peut causer une maladie ou un dysfonctionnement. Connaître la structure des protéines permet de moduler son fonctionnement, de prévenir une infection ou de guérir une maladie par exemple », explique Sameer Velankar. Lorsque les scientifiques découvrent l’importance de ces formes complexes en 3D, ils mettent en place en 1971 une gigantesque base de données : la Protein Data Bank (PDB). Pendant plusieurs décennies, les biologistes structurels du monde entier y déposent le résultat de leurs expériences pour déterminer la forme des protéines. Au total plus de 200 000 prédictions y sont compilées, et toutes sont disponibles en accès libre. 

De 15% à 90% de précision

Malgré la collaboration de la communauté scientifique dès le début des années 1970, le secret des protéines reste difficile à percer. Pour émuler la recherche et inciter les solutions créatives, une compétition est établie en 1994. Tous les deux ans à la CASP (Critical Assessment of Structure Prediction), les scientifiques proposent de nouvelles méthodes pour prédire la structure des protéines. Mais jusqu’à l’avènement de l’intelligence artificielle, les progrès restent limités. En 2018, Google participe au concours via sa filiale DeepMind et son programme AlphaFold. En combinant trois algorithmes transformeurs qui utilisent les structures déterminées de façon expérimentale par les scientifiques, AlphaFold dessine directement les molécules dans l’espace. Alors que les participants ne dépassent pas 15% de précision de prédiction depuis plus de vingt-cinq ans, l’IA obtient des scores avoisinant les 90%. Deux ans plus tard, une version améliorée du programme retente sa chance. Avec le même succès. 

Sameer Velankar, biologiste structurel à l’EMBL-EBI depuis plus de vingt ans, fait partie de l’équipe de scientifiques qui a propulsé AlphaFold au rang de pionnier de la recherche sur les protéines. En 2021, le laboratoire s’associe à la filiale de Google pour fournir au programme d’intelligence artificielle les données nécessaires à ses calculs prédictifs. « Nous avons établi la base de données d’AlphaFold en à peine trois mois et avec des ressources limitées », raconte Velankar. « La première version contenait 370 000 structures de protéines, soit deux fois plus que la PDB ». Trois ans plus tard, ce sont 241 millions de structures qui sont accessibles sur la base de données d’AlphaFold, auxquelles plus de 2 millions de scientifiques accèdent régulièrement pour faire progresser leur recherche. 

Une collaboration à 3 milliards de dollars

« Presque toutes les prédictions de structure protéinique utilisent cet outil aujourd’hui » assure Sameer Velankar. « L’impact de cette IA a largement dépassé la biologie structurelle et s’étend dans tous les domaines de la biologie. Plus de 45 000 papiers de recherche s’appuyant sur AlphaFold ont été publiés depuis 2021 ». Avant l’apparition de cet outil, seul 15% du protéome humain – qui comprend plus de 200 000 protéines – pouvait être étudié et faire l’objet d’expériences. Aujourd’hui, ce chiffre atteint 95%. « Ces performances sont similaires dans la recherche des maladies tropicales négligées » explique le scientifique d’EMBL-EBI.

Révolutionnaire pour la communauté scientifique, les progrès d’AlphaFold suscitent aussi l’intérêt du secteur pharmaceutique. « Les modèles prédictifs de cette IA permettent d’identifier des molécules qui peuvent devenir des médicaments. Avec les succès d’AlphaFold, DeepMind a pu fonder Isomorphic Labs, une filiale entièrement dédiée à la conception de médicaments », détaille Sameer Velankar. Le 7 janvier 2024, les laboratoires affiliés à Google ont annoncé avoir conclu un partenariat avec les géants de la pharmaceutique Eli Lilly & Co et Novartis. Une collaboration estimée à plus de 3 milliards de dollars, sans compter la vente potentielle des nouveaux médicaments.

Pour l’instant, AlphaFold ne permet pas de comprendre comment et pourquoi les protéines se replient de la sorte, se contentant de dessiner la structure finalisée. Important pour comprendre certains processus biologiques, ces étapes manquent encore au programme de DeepMind. Pour Sameer Velankar « AlphaFold a permis de développer de nouvelles méthodes dans la communauté scientifique mais l’IA doit encore relever certains défis. Il y a encore du travail avant de pouvoir dire que nous comprenons comment les protéines fonctionnent ».