Nous avons récemment eu l’occasion de nous entretenir avec Jan Chorowski, ancien étudiant de Mila maintenant directeur de la technologie et cofondateur de Pathway, une plateforme de traitement des données pilotée par l’IA.
Parlez-nous de votre parcours académique et professionnel.
J’ai consacré ma carrière à explorer comment les réseaux neuronaux peuvent se rapprocher du fonctionnement réel de l’intelligence humaine. Au début de mes recherches, j’ai été le premier à appliquer des mécanismes d’attention à la reconnaissance vocale, une approche qui a contribué à façonner le domaine de l’apprentissage séquence-à-séquence. J’ai eu l’occasion de collaborer avec Geoffrey Hinton et Yoshua Bengio, dont les travaux ont profondément influencé ma compréhension de la manière dont l’apprentissage et le raisonnement émergent dans des systèmes distribués.
Après avoir occupé des postes de professeur titulaire à l’université, puis travaillé chez Google Brain et à Mila, j’ai cofondé Pathway, où je suis aujourd’hui directeur de la technologie. La création de Pathway m'a permis de sortir les idées de la recherche du laboratoire et d’avoir un impact concret sur le monde. Mon objectif est de transformer les avancées scientifiques en systèmes d’IA évolutifs capables de raisonner, de s’adapter et d’apprendre en continu dans des environnements réels.
Sur quoi travaillez-vous actuellement ?
Chez Pathway, nous développons une IA qui réfléchit en temps réel, ainsi que des systèmes qui évoluent avec l’expérience au lieu de rester statiques après l’entraînement. Notre dernière recherche a introduit Baby Dragon Hatchling (BDH), une nouvelle architecture « post-Transformer » qui fait le pont entre intelligence artificielle et intelligence biologique.
BDH est conçue pour généraliser au fil du temps, apprendre en continu, maintenir de longues chaînes de raisonnement et s’adapter de manière sûre dans des environnements dynamiques. Nous la considérons comme une étape fondamentale vers une IA capable de comprendre, raisonner et s’améliorer comme un être vivant – un modèle d’intelligence vivante. Notre technologie est déjà utilisée dans des applications réelles, notamment dans les systèmes de planification adaptative de l’OTAN et dans l’optimisation logistique en temps réel de La Poste.
Le design du BDH, inspiré par le cerveau, lui permet de passer à l’échelle efficacement, avec des biais inductifs alignés sur la manière dont les systèmes biologiques apprennent. Nous avons validé ses propriétés sur des modèles comparables en taille aux premiers LLM, tels que GPT-2. Nous développons maintenant des modèles de raisonnement de niveau production basés sur BDH. Avec nos partenaires, dont AWS et Nvidia, nous devons les mettre entre les mains de nos partenaires industriels le plus rapidement possible.
Parlez-nous un peu de votre expérience à Mila.
J’ai passé une période très productive à Mila. L’atmosphère était extrêmement inspirante : chacun travaillait sur quelque chose d’important et il était facile d’échanger des idées – lors des tea-talks, de discussions informelles en petits groupes ou pendant les déjeuners. Mila favorisait un esprit de camaraderie qui permettait à chacun d’atteindre d’excellents résultats grâce à la collaboration et au partage ouvert des idées.
Le projet dont je suis le plus fier à Mila est l’application du mécanisme d’attention, initialement développé pour la traduction, à la reconnaissance vocale. J’ai commencé à travailler avec Dzmitry Bahdanau et Kyunghyun Cho pour reproduire leur résultat sur la parole, et cela est rapidement devenu une nouvelle collaboration au cours de laquelle nous avons étendu les réseaux, passant du traitement de phrases de quelques dizaines de mots à des échantillons vocaux contenant des milliers de frames. Cela a été possible parce que Mila favorisait une culture de confiance et d’entraide. J’ai toujours essayé de reproduire cette culture dans toutes mes équipes par la suite.
Quels conseils donneriez-vous aux nouveaux·elles étudiant·e·s de Mila ou à celles et ceux qui souhaitent créer leur startup ?
La recherche et les startups ont un point commun : il est essentiel de choisir soigneusement sur quoi l’on travaille. La principale différence est qu’en recherche, nous, la communauté scientifique, sommes les principaux destinataires de nos travaux. Il faut donc développer davantage d’empathie pour comprendre ce qui compte réellement et comment créer de la valeur pour les autres.
Dans une startup, nous devons impressionner nos utilisateur·rice·s – des personnes différentes de nous. Il faut donc encore plus d’empathie pour comprendre ce qui est important et ce qui crée de la valeur.
Quel est, selon vous, le plus grand défi auquel l’IA est confrontée aujourd’hui ?
L’IA est un formidable outil d’interpolation : pendant son entraînement, elle a indexé et internalisé toutes les informations produites collectivement par l’humanité, et elle les utilise de manière constructive. Cependant, de nouveaux défis apparaîtront lorsque l’IA commencera à prendre part à notre monde et à interagir avec lui.
Une question intéressante est de savoir si l’IA pourra apprendre par elle-même, en interagissant avec le monde ou avec ses propres pensées. Est-il possible de créer une « IA Ramanujan » capable de percevoir de nouveaux motifs sans devoir d’abord consommer toutes les données existantes ? Je pense que l’apprentissage et la découverte de connaissances à partir de très peu de données constituent la prochaine frontière : en réalité, les nouvelles données d’entraînement sont très rares.
Les architectures inspirées du cerveau comme BDH vont dans cette direction : grâce à des biais inductifs similaires à ceux du cerveau, nous nous rapprocherons de son efficacité en matière de données. Apprendre à partir d’une quantité de données comparable à celle des humains nécessitera bien sûr plusieurs autres avancées liées à l’entraînement et au raisonnement, sur lesquelles nous travaillons déjà.
Qu’attendez-vous le plus du développement futur de l’IA ?
Ce qui m’enthousiasme le plus, c’est le passage de systèmes qui imitent l’intelligence à des systèmes capables de la développer réellement – une IA qui grandit, raisonne et apprend en continu, comme nous. À mesure que ces systèmes deviendront plus conscients du contexte et capables d’apprentissage tout au long de la vie, je les vois ouvrir de nouvelles formes de créativité et de découverte plutôt que se limiter à l’automatisation.
Imaginez des outils d’IA qui aideraient les scientifiques à découvrir de nouveaux moyens de produire de l’énergie propre, ou à accélérer des percées en matière de durabilité. C’est ce genre de progrès que j’ai envie de voir : une IA non pas comme un substitut à l’intelligence humaine, mais comme un catalyseur qui l’amplifie.