Neural AI Reading Group : résumé du semestre d’hiver 2021

Mila > Le blogue Mila > Neural AI Reading Group : résumé du semestre d’hiver 2021
13/09/2021
Neural AI Reading Group : résumé du semestre d’hiver 2021
par Maximilian Puelma Touzel

Les conférencières et conférenciers que nous avons entendus cette année ont des expériences extrêmement diversifiées. L’IA neuronale ou neuroIA est, après tout, un terme générique pour la recherche au carrefour des neurosciences et de l’intelligence artificielle (IA). C’est un domaine qui attire un large éventail de chercheurs s’intéressant aux théories et aux applications associées au phénomène d’apprentissage. Ce groupe comprend des spécialistes de l’informatique, de l’ingénierie, de la physique, de la psychologie, des neurosciences expérimentales, des mathématiques appliquées (notamment des statistiques et de l’optimisation) et même de la philosophie (voir, par exemple, le symposium SENAI). De plus, les termes neuro et IA en neuroIA sont interprétés au sens large : vous ne trouverez pas beaucoup de positions extrêmes dans les débats traditionnellement dichotomiques, comme la primauté du comportement sur l’activité neuronale ou de l’IA symbolique sur l’IA connexionniste. Ce caractère inclusif est rafraîchissant.

Bien que ce soit connu de la majorité des personnes qui travaillent en neuroIA, il existe (au moins !) deux directions concrètes qui, selon moi, font de cette discipline un espace de recherche stimulant pour ce groupe hétérogène : 

(1)   La première, l’IA au service de la neuro (AI-to-Neuro), exploite les fondements théoriques de l’apprentissage automatique pour formaliser les processus d’apprentissage et utilise la théorie pour expliquer le phénomène d’apprentissage dans le cerveau.

(2)   La seconde, la neuro au service de l’IA (Neuro-to-AI), identifie les capacités d’apprentissage impressionnantes du cerveau et tente de traduire notre compréhension de ces capacités en avancées algorithmiques susceptibles de nous permettre de dépasser les limites actuelles de l’IA.

Dans ce blogue, je récapitule les activités de notre groupe de lecture pendant le semestre d’hiver en mettant en évidence un échantillon (très partial !) de conférences qui illustrent ces deux voies. Elles montrent bien tout l’attrait de la neuroIA et l’intérêt qu’elle suscite auprès du plus grand nombre, ce qui rend les événements communautaires comme le nôtre si éclectiques.

Un sujet chaud de la neuroIA : les algorithmes d’apprentissage efficaces et approximatifs dans les cerveaux et les machines

Les méthodes modernes d’apprentissage profond utilisent des modèles dans lesquels les variables qui décrivent les nœuds d’un réseau de neurones artificiels interagissent en permanence. Les neurones communiquent par des pics, une caractéristique qui induit une plus faible consommation énergétique et une plus grande robustesse au bruit. Pourtant, jusqu’à récemment, les réseaux de neurones récurrents à pics étaient difficiles à entraîner. Cela s’explique en partie par le fait que les pics sont des impulsions discrètes dont l’indifférenciabilité déstabilise les algorithmes d’apprentissage basés sur le gradient utilisés traditionnellement pour former les réseaux de neurones artificiels. Cependant, une perspective moderne en neurosciences computationnelles atténue cette distinction entre interactions continues ou discrètes et se concentre plutôt sur des approximations efficaces et robustes de l’apprentissage par gradient. L’un des experts de l’apprentissage par gradient dans les réseaux de neurones artificiels est le neuroscientifique computationnel Guillaume Bellec. Avec des collaborateurs, il a mis au point la propagation de l’éligibilité (e-prop), qui utilise des variables d’adaptation lentes, inspirées de types de canaux ioniques dans les neurones réels, pour propager plus loin l’information du gradient, ce qui conduit à un algorithme d’apprentissage plus puissant. Ce travail tire parti d’une approximation grossière mais étonnamment efficace sur une décomposition du gradient qui néglige les termes hors diagonale de la partie non locale. Cette dernière idée semble centrale dans l’état de la technique, puisqu’elle apparaît également de manière distincte dans l’algorithme SNAP de DeepMind. Guillaume Bellec a également présenté l’algorithme CLAPP, qui approxime la descente de gradient en utilisant uniquement les calculs locaux à chaque couche au moyen d’un codage prédictif et contrastif. Il s’agit là de nouveaux exemples passionnants de la neuro au service de l’IA.

Figure 1. Adapté avec la permission de « A solution to the learning dilemma for recurrent networks of spiking neurons », par G. Bellec, F. Scherr, et al, 2020, Nature Communications, 11. L’une des questions posées par la neuroIA contemporaine consiste à savoir comment les cerveaux pourraient mettre en œuvre des versions approximatives de la descente de gradient sur une certaine fonction de perte, soit E ?

Les sujets de la neuroIA qui sont étudiés depuis longtemps ont souvent fait l’objet de multiples pollinisations croisées entre les neurosciences et l’IA. Prenons l’exemple de l’algorithme de « veille-sommeil », conçu à l’origine à partir de méthodes bayésiennes variationnelles et inspiré par l’abstraction croissante des représentations sensorielles au cours des multiples étapes du flux de traitement ventral du cerveau. Cet algorithme a depuis été adapté sous diverses formes dans le cadre de l’apprentissage automatique neuro-inspiré (par exemple, les codes distribués de répartition apprenants). Colin Bredenberg, un doctorant en neurosciences computationnelles à l’Université de New York qui a récemment effectué un séjour de recherche avec le professeur Guillaume Lajoie et moi-même, a présenté son précédent travail sur le retour de l’algorithme de veille-sommeil en neurosciences, c’est-à-dire dans la direction de l’IA au service de la neuro. Il a montré que l’algorithme pouvait être rendu moins improbable en tant que modèle pour l’apprentissage de l’abstraction dans le cerveau au moyen d’une version en ligne qui imbrique les calculs avant et arrière entre les couches successives. 

Laissant de côté le débat éculé à savoir si le cerveau fait ou non de la descente de gradient, ces deux présentations faites à notre groupe de lecture sont des exemples d’un domaine de recherche en plein essor où les neurosciences et l’intelligence artificielle partagent un objectif commun : la découverte d’approximations efficaces et robustes de la descente de gradient.

L’IA dans la nature

Lors de l’un des récents « tea talks » de Mila, le professeur Leslie Kaelbling, chercheur au MIT, a mis l’auditoire au défi de réfléchir aux problèmes pratiques qui se posent et aux paramètres d’évaluation nécessaires lorsque l’IA est déployée dans la nature. Dans ce cas, la neuroIA est utile, car des solutions possibles à bon nombre de ces problèmes pratiques existent quelque part dans le cerveau de nombreux animaux. Par exemple, l’apprentissage continu s’intéresse au problème de l’oubli catastrophique en tentant d’éviter que les systèmes d’apprentissage qui généralisent leurs connaissances à de nouvelles tâches n’oublient pas comment résoudre les tâches originales apprises au cours du processus. Il s’agit d’un sujet d’actualité pour Irina Rish, de Mila et pour son groupe de la Chaire d’excellence en recherche du Canada en intelligence artificielle autonome. Les recherches neuroscientifiques en cours sur la consolidation de la mémoire par le biais de l’activation hippocampique et les travaux d’intelligence artificielle sur les algorithmes d’apprentissage continu font de ce problème une excellente cible pour la recherche en neuroIA. Nous avons eu une variété de conférences sur le sujet au cours du dernier semestre. Timo Flesch, neuroscientifique cognitif computationnel, a présenté la distinction entre apprentissage riche et paresseux, où la sélectivité mixte non linéaire et les représentations spécifiques à la tâche ont des effets distincts sur l’oubli catastrophique en apprentissage continu multitâche, en fonction de la similarité des tâches. Rishabh Agarwal, de Google, a traité d’une procédure contrastive pour intégrer une métrique de similitude de comportement afin de généraliser l’apprentissage par renforcement. Ici, les politiques sont évaluées dans un espace abstrait qui comprend des informations présentées de façon séquentielle. Comme dernier exemple, Nicolas Deperrois, un doctorant du groupe du professeur Walter Senn de l’Université de Berne, a abordé la distinction entre la mémoire épisodique et la mémoire sémantique en connaissance déclarative et a proposé des formes distinctes de consolidation pour chacune au moyen d’une architecture et de phases d’apprentissage distinctes dans lesquelles les représentations sémantiques sont issues du rêve de type paradoxal et de la répétition épisodique non paradoxale. Ce sont là quelques exemples de travaux réalisés en synergie qui s’attaquent à des tâches difficiles dans les domaines de la recherche contemporaine en neurosciences et en intelligence artificielle.

Une IA hors du commun

La quantité de détails biophysiques dans le cerveau constitue un défi de taille pour la neuro au service de l’IA : il faut trouver et comprendre les mécanismes qui nous permettent d’exceller là où les algorithmes actuels échouent. Ce problème pourrait se comparer au fait d’aller en Amazonie pour prélever des échantillons de plantes dans l’espoir de trouver des composés exotiques aux puissantes propriétés. Que faut-il chercher ? Où peut-on les trouver ? Comment traiter les connaissances acquises pour développer des applications utiles ? En neuroIA, de grandes réussites peuvent nous inspirer. Un exemple frappant est l’origine des réseaux neuronaux convolutionnels et de la mise en commun des sorties, qui ont été suggérés par notre compréhension du traitement par couches dans le système visuel. La vision est de loin le sens le plus étudié. Quelles innovations se cachent derrière les autres systèmes sensoriels ? Par exemple, l’olfaction présente des connexions presque aléatoires entre les couches. Ce fait pourrait-il être lié à la découverte surprenante, dans les réseaux neuronaux artificiels, que même des poids initialisés de manière aléatoire sont suffisants pour l’apprentissage ?

Nous n’avons même pas besoin d’explorer d’autres sens pour trouver de nouvelles idées sur la cognition qui pourraient inspirer la prochaine génération d’algorithmes d’IA. Comment, par exemple, notre cerveau apprend-il et compose-t-il des programmes pour résoudre des classes entières de tâches ? En particulier, quels schémas (par exemple, l’organisation des objets dans notre champ visuel de gauche à droite) sont ancrés dans notre cerveau et lesquels sont appris par l’expérience ? Ce semestre, l’une de nos dernières conférences a été donnée par Steven Piantadosi, membre de la faculté de psychologie de Berkeley, qui a présenté ses travaux sur l’apprentissage des programmes dans les différentes cultures. Après un travail anthropologique sur le terrain auprès de populations culturellement isolées, son équipe n’a trouvé aucun biais inhérent à la direction des schémas cognitifs construits par les sujets comparativement à ceux des adultes issus de cultures occidentales. Une intelligence artificielle dotée d’une telle symétrie dans son programme d’apprentissage serait-elle meilleure que les IA existantes ? Une autre question fascinante pour la recherche en neuroIA.

J’espère que vous avez aimé cette brève présentation des activités de notre groupe de lecture. Nous sommes impatients d’entendre parler d’autres recherches passionnantes lorsque nous relancerons nos activités cet automne. N’hésitez pas à nous faire part de travaux intéressants en neuroIA que vous jugez que nous devrions présenter. Et restez à l’écoute pour en savoir plus sur l’édition 2021 de MAIN, notre conférence annuelle sur la neuroIA qui aura lieu avant Noël.

Articles similaires

array(1) { ["wp-wpml_current_language"]=> string(2) "fr" }