Peu importe la taille: démocratiser la découverte de protéines avec l'IA

representation of protein language model

Dévoilement d'un puissant modèle de langage protéique à source ouverte

Dans plusieurs disciplines, l’intelligence artificielle (IA) peut aider les scientifiques à découvrir de nouvelles protéines thérapeutiques et à développer de nouveaux médicaments grâce à des modèles de langage similaires à ceux générant du texte. Cependant, les modèles de langage protéique actuels sont coûteux à développer et complexes à mettre en place pour les laboratoires universitaires. Notre nouveau modèle de langage protéique, AMPLIFY (Amgen-Mila Protein Language model for InFerence and discoverY), propose un modèle à code source ouvert plus compact et efficace afin de démocratiser la découverte de protéines.

Les protéines sont les éléments fondamentaux des organismes vivants: l'ADN et l'ARN sont les “plans” de la vie, les protéines sont les matériaux structurels et fonctionnels. Elles jouent également un rôle vital en tant que médicaments, notamment sous forme d'anticorps, dans les thérapies contre les maladies auto-immunes et le cancer.

De nouveaux outils améliorant notre compréhension des protéines sont cruciaux pour faire avancer la recherche et concevoir des médicaments plus efficaces. Récemment, les chercheuses et chercheurs en intelligence artificielle ont réalisé des progrès significatifs dans la compréhension et la conception de protéines complexes, notamment grâce au développement de modèles de langage protéique.

Découverte de protéines plus efficace et accessible

À la manière des grands modèles de langage pouvant générer un texte logique et intelligible à partir d'une simple requête, ces modèles de langage protéique peuvent prédire et analyser les structures et fonctions des protéines en interprétant les séquences d'acides aminés.

Dans le contexte de la découverte de médicaments et de la recherche médicale, cette avancée pourrait réduire considérablement le temps et les coûts associés à l’évaluation de médicaments candidats prometteurs pour les expériences en laboratoire.

Déterminer rapidement quelles protéines conviennent ou non à des expériences réelles permet aux laboratoires de recherche d’éviter des erreurs coûteuses, car plus un médicament candidat progresse dans le processus de développement, plus il est onéreux de l’abandonner. Un modèle de langage protéique permet ainsi de concentrer les efforts et les ressources sur les médicaments candidats les plus prometteurs, augmentant ainsi les chances de succès.

Les modèles de langage protéique actuels sont coûteux à utiliser et ne sont ni pratiques ni rentables pour la plupart des laboratoires de recherche menant des expériences avec leurs propres ensembles de données d'apprentissage.

Nous sommes donc partis d’une question simple mais ambitieuse: pourrions-nous mettre à disposition des petits laboratoires du monde entier un meilleur accès aux modèles de langage protéique et ainsi mettre les chercheuses et chercheurs sur un pied d'égalité?

Compact et performant

Des acteurs majeurs existent déjà dans ce domaine, notamment AlphaFold, créé par Google DeepMind, et les modèles de langage protéique ESM créés par Meta. ESM-2 est actuellement le meilleur modèle de langage protéique basé sur les séquences, mais avec 15 milliards de paramètres, nous estimons que l'entraînement du plus grand ESM-2 coûte plus d'un million de dollars, le mettant hors de portée de la plupart des laboratoires.

Pourtant, ESM-2 et les autres modèles de langage protéique existants traitent les données d'une manière largement biaisée en faveur des valeurs aberrantes et des non-protéines, nécessitant d'immenses quantités de puissance et d'innombrables paramètres pour fournir des résultats utiles. Cela remet en cause leur efficacité et la nécessité de leur grande taille, leur coût prohibitif et leurs pipelines de données exclusifs.

En collaboration avec Amgen, nous avons abordé ces biais de données et mis en œuvre des techniques issues des modèles de langage les plus récents pour créer AMPLIFY, notre propre modèle de langage protéique de pointe. Nous avons constaté qu'AMPLIFY est non seulement compétitif avec ESM2, mais qu'il le surpasse même dans certaines tâches, bien qu'ayant 43 fois moins de paramètres (350 millions). Il nécessite également 17 fois moins de calculs pour être entraîné et est jusqu'à 2 000 fois plus rapide pour la prédiction.

AMPLIFY soulève donc une question fascinante: la mise à l'échelle est-elle nécessaire pour créer de meilleurs modèles génératifs de protéines, ou devrions-nous prioriser la qualité plutôt que la quantité?

Science ouverte

L'innovation ne consiste pas toujours à créer des modèles plus gros, mais aussi des modèles plus efficaces. Grâce à ce projet, nous avons obtenu des résultats similaires (et parfois même meilleurs) dans les tâches de prédiction des protéines, sans les coûts exorbitants et la charge de calcul associés aux méthodes existantes.

AMPLIFY permettra donc aux laboratoires du monde entier de se lancer dans la recherche de pointe sur les protéines et d'accélérer le processus de conception de nouveaux médicaments. 

En ce sens, nous avons tenu à adopter une véritable approche de science ouverte. Engagés en faveur de la démocratisation de la science, nous publions la base de code de pré-entraînement d'AMPLIFY, les données et les points de contrôle du modèle sous une licence open-source pour la communauté scientifique.

Jusqu'à présent, une grande partie de la communauté de recherche en IA a peiné à développer de nouveaux modèles en raison de la grande quantité de données, de ressources de calcul et, surtout, d'argent nécessaire. Grâce à cette étroite collaboration entre experts en IA et en biologie, nous espérons que davantage de groupes de recherche utiliseront ce modèle compact et efficace pour développer leurs propres modèles de séquences de protéines et repousser les limites de la découverte scientifique.

AMPLIFY est le résultat d’une collaboration entre Mila, Amgen, et le laboratoire de recherche Chandar.