Améliorer l’IA grâce au langage humain

Picture of a yellow cover magazine with phrases using different typography

Le langage, pilier de la civilisation humaine, est étudié depuis des décennies par les linguistes. Les avancées récentes en IA ont vu l'émergence des grands modèles de langage (LLM) qui alimentent des outils d'IA grand public comme ChatGPT. Bien que ces derniers rivalisent avec les capacités humaines sur certaines tâches, ils restent limités en matière de raisonnement et de logique. Pourraient-ils être améliorés en étudiant les principes de l'apprentissage du langage chez l'humain?

C'est la question à laquelle nous avons cherché à répondre dans notre plus récent article de perspective, publié dans Nature Computational Science. Nous y soutenons que les modèles d'IA générative, lorsqu'ils apprennent à représenter le langage, ont la capacité de modéliser la connaissance grammaticale humaine telle que conçue par le linguiste Noam Chomsky.

Les modèles du langage humain sont principalement symboliques : ils décrivent notre connaissance d'une langue spécifique en termes de règles, comme une grammaire ou des caractéristiques qui peuvent être mises en correspondance avec des informations du monde réel.

En revanche, la plupart des modèles d'IA modernes comprennent le langage sous forme de vecteurs, ou de structures d'information qui ne peuvent être directement liées à un ensemble spécifique de règles symboliques : un LLM comprend les mots ou les phrases comme des embeddings (des représentations numériques d'une donnée).

Apprentissage du langage : IA vs humain

Un débat sur la nature de l'apprentissage du langage a récemment fait surface.

D'un côté, certains linguistes soutiennent que les modèles d'IA ne peuvent pas expliquer le langage humain, car ce sont des outils statistiques n'offrant aucun réel aperçu des processus cognitifs de l'acquisition du langage.

De l'autre, des chercheurs et chercheuses en IA pensent que la capacité des LLM à apprendre une langue uniquement à partir de données brutes prouve que des décennies de théorie linguistique, en particulier les concepts de structures grammaticales innées, sont obsolètes.

En tant que chercheuse ayant un pied dans les deux domaines, je soutiens plutôt que ces deux extrêmes peuvent en réalité aider à comprendre et à enrichir chaque domaine : l'apprentissage du langage chez l'humain est, à certains égards, étonnamment similaire à celui des modèles d'IA.

Les modèles d'IA sont des apprenants uniques, car ils sont confrontés à du texte sans connaissance sous-jacente des fondements linguistiques d'une phrase (verbes, noms, adjectifs, etc.).

Nous leur donnons un corpus de mots sur lequel ils doivent apprendre des distributions, mais très peu de connaissances sur la langue elle-même. Nous ne leur disons pas que les noms et les verbes existent : ils doivent l'apprendre par eux-mêmes.

Cela reflète la manière dont les humains développent un modèle interne pour reconnaître la validité d'une phrase en termes de grammaire et de structure (même si son sens est absurde), uniquement à partir des données qu'ils entendent ou voient.

Bien que les mécanismes exacts de l'acquisition du langage puissent différer, les humains comme l'IA développent une compréhension latente des règles de la langue.

Un pont entre les disciplines

L'analyse des connaissances cachées que les LLM acquièrent pourrait offrir une fenêtre sur la manière dont notre cerveau représente le langage, et inversement, la linguistique peut fournir des clés pour améliorer les modèles d'IA basés sur le langage.

Les humains excellent dans les raisonnements logiques et apprennent à le faire à partir de données éparses (par exemple, savoir qu'une phrase est négative après l'avoir rencontrée une seule fois), une tâche encore difficile pour les LLM. Cela met en évidence leurs limites actuelles en matière de raisonnement et d'efficacité des données.

En tant que chercheurs et chercheuses, nous pouvons aider à bâtir ce pont. Pour surmonter les obstacles actuels des modèles de langage, nous avons besoin de modèles neuro-symboliques combinant les forces de reconnaissance de formes des réseaux neuronaux avec la logique structurée et basée sur des règles sous-tendant la pensée humaine.

En favorisant la collaboration interdisciplinaire, les domaines de l'IA et de la linguistique peuvent permettre une compréhension plus profonde de l'intelligence et aider à améliorer l'efficacité et la performance des modèles d'IA actuels.