Yoshua Bengio

Lauréat du prix Turing 2018. 
Professeur titulaire, Département d’informatique et de recherche opérationnelle, Université de Montréal.
Chaire de Recherche du Canada sur les algorithmes d’apprentissage statistique.
Fondateur et directeur scientifique de Mila. 
Directeur scientifique d’IVADO. 
Fellow et directeur de programme CIFAR.

Recherche

Intérêts de recherche

Mon objectif à long terme est de comprendre les principes expliquant l’intelligence ; en saisir les mécanismes sous-jacents nous apporterait l’intelligence artificielle et nous permettrait en même temps de comprendre un aspect central de l’humain, et je crois que les algorithmes d’apprentissage sont essentiels à cette quête.

J’effectue des travaux sur les réseaux de neurones depuis 1986, et plus spécifiquement sur l’apprentissage profond depuis le début du siècle. Qu’il s’agisse d’un animal, d’une machine ou d’un être humain, je suis fasciné par la capacité propre aux agents intelligents d’appréhender la manière dont fonctionne leur environnement. C’est bien sûr utile pour prendre de bonnes décisions, mais j’estime que c’est la notion de compréhension qui est au cœur du sujet, et la question cruciale est donc de savoir comment apprendre à comprendre.

Par le passé j’ai travaillé sur : l’apprentissage des représentations profondes (soit supervisées ou non supervisées), la saisie des dépendances séquentielles avec des réseaux récurrents et autres modèles autorégressifs, la compréhension des mécanismes d’attribution du crédit (y compris la recherche d’analogues biologiquement plausibles pour la rétropropagation, ainsi que l’apprentissage de bout en bout des ensembles complexes de traitement modulaire des informations), le méta-apprentissage (ou apprendre à apprendre), les mécanismes de l’attention, les modèles génératifs profonds, l’apprentissage par curriculum, les variations de la descente de gradient stochastique et pourquoi la méthode SGD fonctionne si bien pour les réseaux neuronaux, les architectures convolutives, le traitement automatique du langage naturel (en particulier les représentations de mots, les modèles de langage et la traduction automatique), le fait de comprendre pourquoi l’apprentissage profond est si efficace et quelles sont ses limites actuelles. J’ai travaillé sur de nombreuses applications de l’apprentissage profond, y compris – mais sans s’y limiter – la santé (comme l’analyse d’imagerie médicale), les tâches standard de l’IA pour ce qui est de la vision par ordinateur, la modélisation de la parole et du langage et, plus récemment, la robotique.

À l’avenir, je souhaite me tourner vers les sujets suivants :

  • Comment aller au-delà de l’hypothèse iid (et plus généralement la supposition que les nouveaux cas proviendront de la même distribution que l’ensemble de données d’entraînement)
  • L’apprentissage causal (c.-à-d. élucider les variables causales et les liens de causalité entre elles)
  • Modulariser le savoir afin qu’il puisse être réutilisé pour des transferts et une adaptation rapide.
  • Comment les agents peuvent agir délibérément pour mieux explorer et comprendre leur environnement
  • L’apprentissage du langage ancré dans un modèle du monde, ainsi que la manière dont les réseaux neuronaux s’attaquent aux tâches cognitives de système 2 (c.-à-d. conscientes) comme par exemple le raisonnement, la planification ou l’imagination et comment cela peut aider un apprenant à déterminer le sens de représentations de haut niveau tant du côté de la perception que de l’action.

Je crois que tout ce qui précède constitue différents aspects d’un objectif commun allant au-delà des limites de l’apprentissage profond dans sa forme actuelle pour se diriger vers l’IA de niveau humain. Je m’intéresse par ailleurs à l’IA pour le bien social, en particulier dans le domaine de la santé, de l’humanitaire et de l’environnement (avec un accent particulier sur le changement climatique).

Travaux passés significatifs

1989-1998 Ma thèse de doctorat (1991) basée principalement sur des réseaux convolutifs et récurrents entraînés de bout en bout avec des alignements probabilistes (les HMM) pour modéliser des séquences ; NIPS 1988, NIPS 1989, Eurospeech 1991, PAMI 1991, et IEEE Trans. Neural Nets 1992. Ces architectures ont été appliquées pour la première fois à la reconnaissance vocale dans le cadre de mon doctorat (et redécouvertes après 2010), puis avec Yann LeCun et al à la reconnaissance de l’écriture manuscrite et à l’analyse de documents (notre article le plus cité est « Gradient-based learning applied to document recognition » , 1998, avec plus de 15 000 citations en 2018) pour lesquelles nous avons aussi introduit avant la lettre les formes non linéaires de champs aléatoires conditionnels.

1991-1995 Les articles « apprendre à apprendre » avec Samy Bengio, en commençant par celui de l’IJCNN 1991, « Learning a synaptic learning rule ». Le concept d’apprendre à apprendre (en particulier par la rétropropagation à travers l’ensemble du processus) est maintenant très populaire, mais nous n’avions pas la puissance de calcul nécessaire au début des années 90.

1993-1995 Le dévoilement de la difficulté fondamentale de l’apprentissage par les réseaux récurrents et autres modèles d’apprentissage automatique basés sur les dépendances temporelles, que l’on associe avec des gradients en voie d’explosion ou de dissipation : ICNN 1993, NIPS 1993, NIPS 1994, IEEE Transactions on Neural nets 1994, et NIPS 1995. Ces articles ont eu un impact considérable et ont inspiré des recherches ultérieures sur les architectures pour aider à l’apprentissage de dépendances à long terme et à la gestion de gradients en voie d’explosion ou de dissipation. L’article d’IEEE Transactions 1994 a contribué de manière subtile mais néanmoins importante au problème en démontrant que la condition nécessaire au stockage fiable des informations à travers le temps donne aussi lieu à des gradients se dissipant, avec l’aide de la théorie des systèmes dynamiques. L’article de NIPS 1995 a introduit l’utilisation d’une hiérarchie d’échelles temporelles pour lutter contre la dissipation des gradients.

1999-2014 Comprendre comment les représentations distribuées peuvent contourner la malédiction de la dimensionnalité en généralisant à un ensemble exponentiellement vaste de régions à partir du peu d’entre elles qui sont occupées par des exemples d’entraînement. Cette série d’articles a aussi mis en évidence comment les méthodes basées sur la généralisation locale, par exemple les SVM de noyau Gaussien ou du « voisin le plus proche », manquent cette capacité de généralisation. NIPS 1999 a pour la première fois introduit l’utilisation de réseaux de neurones autorégressifs pour l’estimation de la densité (le précurseur du NADE et des modèles PixelRNN/PixelCNN). Les articles de NIPS 2004, NIPS 2005 et NIPS 2011 sur le sujet ont démontré comment les réseaux de neurones peuvent apprendre une métrique locale autour de la variété des données, ce qui peut améliorer les méthodes à noyau grâce au pouvoir de généralisation de représentations distribuées. Un autre article de NIPS 2005 montre les limites fondamentales des méthodes à noyau qui sont dues à une extension du concept de malédiction de la dimensionnalité, la malédiction des fonctions très variables, qui ont beaucoup de hauts et de bas. Finalement, l’article d’ICLR 2014 démontre que, dans le cas des réseaux linéaires par morceaux (comme ceux avec ReLUs), les régions (morceaux linéaires) qui se distinguent par un réseau de neurones avec une couche cachée sont en nombre exponentiel par rapport au nombre de neurones (alors que le nombre de paramètres est quadratique par rapport au nombre de neurones, et une méthode à noyau local nécessiterait un nombre exponentiel d’exemples pour saisir le même type de fonction).

2000-2008 Les vecteurs-mots (ou plongement lexical) à partir de réseaux de neurones et de modèles neuronaux du langage. L’article de NIPS 2000 présente pour la première fois l’apprentissage de vecteurs-mots dans le cadre d’un réseau de neurones qui modélise des données linguistiques. La version du JMLR 2003 étend cette notion (à eux deux, les articles ont comptabilisé environ 3000 citations jusqu’en 2018) et introduit aussi l’idée de SGD asynchrone pour l’entraînement distribué de réseaux de neurones. Les vecteurs-mots sont devenus l’un des outils les plus courants de l’apprentissage profond lorsqu’il s’agit de données linguistiques, et ce faisant ont essentiellement créé un nouveau sous-domaine dans le domaine de la linguistique informatique. J’ai aussi introduit l’utilisation de l’échantillonnage d’importance (AISTATS 2003, IEEE Trans. On Neural Nets, 2008) et de la hiérarchie probabiliste (AISTATS 2005) pour accélérer les calculs et faire face à des vocabulaires plus étendus.

2006-2014 Montrer l’avantage théorique de la profondeur pour ce qui est de la généralisation. La présentation orale de NIPS 2006 a démontré de manière expérimentale l’avantage de la profondeur et reste l’un des articles les plus cités du domaine (plus de 2600 citations jusqu’en 2018). L’article de NIPS 2011 montre comment des réseaux somme-produit plus profonds peuvent représenter des fonctions nécessitant un modèle exponentiellement plus large dans le cas d’un réseau sans cette même profondeur. Finalement, l’article de NIPS 2014 sur le nombre de régions linéaires des réseaux neuronaux profonds généralise l’article d’ICLR 2014 mentionné ci-dessus. Il montre que le nombre de morceaux linéaires induits par un réseau linéaire par morceaux croit exponentiellement à la fois en termes du nombre et de la largeur des couches (c.-à-d. en termes de profondeur) ce qui fait que les fonctions représentées par de tels réseaux sont généralement impossibles à capturer efficacement avec des méthodes à noyau (à moins d’utiliser un réseau de neurones entraînés en tant que noyau).

2006-2014 L’apprentissage profond non supervisé basé sur des auto-encodeurs (avec le cas spécial des GAN en tant que modèles uniquement avec décodeurs, cf. plus bas). L’article de NIPS 2006 présente le préentraînement vorace par couches, à la fois dans le cas supervisé et non supervisé avec auto-encodeurs. L’article d’ICML 2008 a introduit les auto-encodeurs débruiteurs et les articles de NIPS 2013, ICML 2014 et JMLR 2014 ont détaillé leur fondement théorique et les ont généralisés en tant que modèles probabilistes à proprement parler, et dans le même temps introduit des alternatives au maximum de vraisemblance en tant que principe d’entraînement.

2014 La dissipation du mythe des minima locaux en ce qui concerne l’optimisation des réseaux de neurones avec l’article de NIPS 2014 sur les points de selle, et la démonstration que c’est le grand nombre de paramètres qui fait qu’il est très improbable que des mauvais minima locaux existent.

2014 L’introduction de réseaux antagonistes génératifs (les GAN) à NIPS 2014, qui ont mené à de nombreuses innovations dans l’entraînement des modèles génératifs profonds au delà du cadre du maximum de vraisemblance et même en dehors du schéma classique d’avoir une seule fonction objective (entrant ainsi dans le territoire de modèles multiples entraînés avec leur propre objectif, suivant donc la théorie des jeux). C’est l’un des domaines de l’apprentissage profond les plus en vogue en ce moment avec plus de 6000 citations accumulées en 2018, la plupart venant d’articles qui introduisent des variantes de GAN. Ces dernières ont produit des images de synthèse d’un réalisme impressionnant que l’on n’aurait pas cru être à la portée d’un ordinateur il y a à peine quelques années.

2014-2016 L’introduction de l’attention souple basée sur le contenu et la percée qu’elle a apportée à la traduction automatique, principalement avec Kyunghyun Cho et Dima Bahdanau. Nous avons d’abord présenté l’architecture encodeur-décodeur (à présent connue sous le nom de séquence à séquence) durant l’EMNLP 2014 et puis effectué un grand saut dans nos scores BLEU grâce à l’attention souple basée sur le contenu (ICLR 2015). Ces ingrédients forment désormais la base de la majorité des systèmes commerciaux de traduction automatique, un autre sous-domaine créé entièrement par le biais de ces techniques.