Initiative FLAIR
L'initiative FLAIR ouvre le prochain chapitre de la revitalisation des langues autochtones grâce à l'intelligence artificielle (IA) et à la technologie immersive.
L'initiative FLAIR ouvre le prochain chapitre de la revitalisation des langues autochtones grâce à l'intelligence artificielle (IA) et à la technologie immersive.
Plus de 50 % des langues du monde auront disparu ou seront gravement menacées d'extinction d'ici 2100. L'extinction d'une langue entraîne la perte irrémédiable de connaissances culturelles, historiques et écologiques uniques. Chaque langue étant une expression unique de l'expérience humaine du monde, les connaissances qu'elle véhicule peuvent être la clé pour répondre aux questions fondamentales de l'avenir.
La majorité des langues menacées sont des langues autochtones. Plus de 4 000 langues sont parlées par les peuples autochtones, qui représentent moins de 6 % de la population mondiale. On estime qu'une langue autochtone meurt toutes les deux semaines. Les langues sont au cœur de l'identité des peuples autochtones, de la préservation de leurs cultures, de leurs visions du monde et de leurs conceptions, ainsi que de l'expression de leur autodétermination.
Nous imaginons un monde dans lequel les communautés autochtones jouissent d'une autodétermination et d'une souveraineté totales sur leur langue et leur culture. Nous imaginons la technologie au service de la revitalisation et de l'épanouissement des langues en tant qu'outil permettant de relier les membres d'une communauté, de célébrer leur identité et de transmettre leur culture et leurs connaissances selon leurs propres termes.
L'initiative FLAIR sert les communautés autochtones dans leurs efforts pour revitaliser leur langue et leur culture par le biais de la technologie. Nous jetons les bases de l'IA vocale autochtone dans des systèmes explicitement conçus pour respecter la souveraineté des données et l'autodétermination linguistique.
Notre recherche fondamentale sur la reconnaissance automatique de la parole (ASR) vise à développer une méthode de création rapide de modèles personnalisés pour les langues en danger. Ces modèles peuvent être utilisés pour l'apprentissage des langues, la transcription audio, les technologies à commande vocale et bien d'autres choses encore. En outre, l'IA vocale permettra aux communautés autochtones de participer au métavers dans leurs langues d'origine et facilitera la transmission intergénérationnelle des langues, un facteur essentiel pour la vitalité des langues. Elle permettra des expériences immersives inclusives dans lesquelles les jeunes autochtones pourront renouer avec leur patrimoine dans le cadre d'échanges et d'activités culturellement significatifs.
Nous proposons une approche à multiples facettes qui vise à réduire considérablement les besoins en données. Le développement d'un ASR pour une nouvelle langue nécessite généralement des centaines d'heures de données. Pour la plupart des langues autochtones, cela est généralement irréalisable en raison du nombre limité ou de l'absence d'enregistrements audio et du fait qu'il ne reste que très peu de locuteur·rice·s. Dans de nombreux cas, il reste à peine une dizaine de locuteur·rice·s natif·ve·s, voire aucun·e (qui sont généralement d'un âge avancé), et il n'est pas réaliste de collecter de grandes quantités de données auprès de ces locuteur·rice·s. Lorsque des enregistrements audio existent, ils ne sont pas transcrits ou sont inaccessibles. Il est donc essentiel de trouver une méthode permettant de réduire le nombre d'heures de données audio nécessaires afin de libérer le potentiel de l'IA pour les langues à faibles ressources.
L'objectif immédiat de FLAIR est de valider des solutions pour un ensemble spécifique de langues autochtones en Amérique du Nord. Toutes nos connaissances et tous les outils que nous construisons seront partagés publiquement et en code source libre pour une utilisation gratuite. Nous passerons ensuite au niveau supérieur pour fournir le système résultant du développement rapide de l'ASR aux communautés autochtones du monde entier, car il pourrait contribuer à résoudre des problèmes similaires pour les milliers de langues utilisées par d'autres communautés mal desservies ou en manque de moyens.
Regardez le directeur technique de FLAIR, Michael Running Wolf, présenter sa vision du projet lors d'un événement TEDx organisé à Boston.
L'initiative FLAIR a été fondée et est dirigée par des technologues autochtones. Nous sommes devenus une coalition de technologues, de responsables de la récupération et de la documentation des langues, de scientifiques spécialisé·e·s dans l'apprentissage automatique, d'enseignant·e·s et de chercheur·euse·s spécialisé·e·s dans les langues menacées et de linguistes informaticien·ne·s. Les activités de FLAIR sont également rendues possibles grâce aux contributions d'étudiant·e·s en intelligence artificielle et de consultant·e·s en culture linguistique autochtones.
Michael Running Wolf est un citoyen des Cheyennes du Nord ayant des liens familiaux avec les Lakotas et les Blackfeets. Il a été ingénieur pour l'Alexa d'Amazon et professeur d'informatique à la Northeastern University. Michael poursuit son doctorat à l'Université McGill, sur les systèmes d'IA souverains pour les langues autochtones.
Caroline Running Wolf est citoyenne de la nation Crow. Elle poursuit son doctorat à l'université de la Colombie-Britannique. Elle étudie les technologies immersives (AR/VR/XR) et l'IA pour améliorer la récupération de la langue et de la culture autochtones.
Shawn Tsosie (Navajo / Little Shell) est un scientifique spécialisé dans l'apprentissage automatique et un vétéran de la guerre d'Irak. Il est diplômé du MIT (premier cycle) et de l'université de Californie à Santa Cruz (maîtrise/doctorat) et dirige les travaux de modélisation pour la reconnaissance automatique de la parole dans les langues autochtones.
Conor Quinn est un linguiste spécialisé dans la revitalisation et la récupération qui travaille depuis le milieu des années 1990 sur la structure des langues autochtones et polysynthétiques. Ses recherches portent sur la manière dont les modèles scientifiques permettent des approches pratiques de la pédagogie de la revitalisation et de la récupération des langues communautaires. Il dirige le développement de cours minimaux qui servent de base à la collecte de données et d'outil pédagogique.