L'article, intitulé « Data science opportunities of large-language models for neuroscience and biomedicine », cherche à combler l’écart entre les outils d'IA basés sur les grands modèles de langage, comme ChatGPT, et la recherche scientifique.
Danilo Bzdok, également professeur agrégé au département d'ingénierie biomédicale de l'Université McGill et premier auteur de l'article, explique que ces modèles conçus par des spécialistes l'apprentissage automatique ne fonctionnent pas toujours dans d'autres domaines.
« L'une des grandes questions que nous abordons est la suivante: comment pouvons-nous réexprimer les données neuroscientifiques de manière à ce qu'elles ressemblent à des informations de séquence, qui sont la forme d'information que les grands modèles de langage préfèrent ingérer? ».
« En d'autres termes, comment pouvons-nous prendre des sources d'information issues des neurosciences, mais les façonner de manière à ce qu'elles constituent un point de départ naturel pour un grand modèle de langage? ».
Briser les silos
Selon lui, les outils basés sur les LLMs pourraient jouer un rôle central dans le monde de la recherche scientifique en brisant les silos et en encourageant le dialogue et la collaboration interdisciplinaires.
Par exemple, les chercheurs étudiant les différents aspects de maladies complexes telles qu’Alzheimer sont spécialisés dans leur propre domaine, mais n'ont aucun moyen d'obtenir et d'utiliser facilement des données provenant d'autres domaines.
« Les généticiens étudiant la maladie d'Alzheimer ne connaissent pas nécessairement les épidémiologistes étudiant la maladie d'Alzheimer et ces derniers, à leur tour, ne connaissent pas vraiment les médecins qui réalisent des essais cliniques randomisés sur les traitements à administrer et les interventions à effectuer dans la pratique clinique quotidienne ».
Dans ce scénario, les outils basés sur l'IA pourraient être entraînés sur des quantités importantes de données provenant de toutes ces disciplines dans un délai beaucoup plus court que si un humain devait lire tous les articles en même temps et colliger les données.
Bien que les hallucinations (le fait de faire de fausses déclarations en toute confiance) soient un défaut courant des grands modèles de langage, Danilo Bzdok estime que l'utilisation de l'IA profiterait néanmoins à la communauté scientifique.
« Même s'il faut faire vérifier le résultat final par un groupe d'experts parce qu'il touche à des disciplines différentes qui ne se parlent pas habituellement, le gain de productivité et de temps est énorme », estime-t-il.
Explorer de nouveaux horizons de recherche
Selon lui, les LLMs pourraient même mener à de nouvelles directions et hypothèses de recherche en ayant accès à de grandes quantités de données provenant de nombreux domaines différents et en étudiant une question spécifique sous différents angles.
En ce sens, l'article vise à susciter l'intérêt pour l'utilisation des LLMs dans la recherche scientifique et à aider à hiérarchiser les projets qui auraient le plus de chances de bénéficier de l'utilisation de ces outils.
« Nous voulons discuter et animer des discussions sur les orientations de la recherche (qui étaient tout à fait impossibles avant l'utilisation de cette technologie) dans lesquelles nous pouvons nous engager en toute confiance ».
Selon lui, les scientifiques devraient tirer parti du potentiel croissant des LLMs pour rester à la pointe d'un environnement de recherche en constante évolution.
« Nous passerions à côté d'une immense opportunité si nous n'essayions pas d'utiliser au mieux ce potentiel dans le domaine des neurosciences et de la santé, car le cerveau humain et la santé humaine font partie des sujets les plus compliqués qui existent ».
« Nous devons rester ouverts à la possibilité que l'esprit humain seul soit insuffisant pour résoudre au moins certains défis scientifiques. Et c'est là qu'il pourrait y avoir une sorte de partenariat entre les grands modèles de langage et les scientifiques », a-t-il conclu.