ConceptGraphs
Combiner la vision et le langage pour aider les robots à naviguer dans le monde.
Combiner la vision et le langage pour aider les robots à naviguer dans le monde.
Pour fonctionner efficacement dans des environnements complexes, les robots doivent construire des représentations 3D de leur environnement pouvant être utilisées pour la planification et l'exécution de tâches. Il s’agit du problème de la compréhension de la scène, combinant divers domaines tels que la vision par ordinateur, le traitement du langage naturel et la modélisation 3D.
Les approches existantes se contentent généralement de catégoriser les objets à l'aide d'un ensemble fixe d'étiquettes sémantiques, ce qui est souvent insuffisant pour les tâches complexes. Toutefois, les progrès réalisés dans les modèles de fondation multimodaux permettent aujourd'hui de développer des solutions plus flexibles à « vocabulaire ouvert » palliant ces limitations.
ConceptGraphs est une avancée vers des robots exécutant des tâches directement à partir d'instructions en langage naturel. Il s'agit d'un système de cartographie intégrant les informations géométriques des approches traditionnelles de cartographie en 3D ainsi que les riches informations sémantiques des modèles de fondation de vision-langage.
À partir des données brutes des capteurs, ConceptGraphs construit un graphique de scène 3D des objets et de leurs relations, où les caractéristiques sémantiques ne sont pas limitées à une étiquette de classe sémantique prédéfinie. Cela permet aux robots d'effectuer des tâches complexes de navigation et de manipulation d'objets, comme l'a démontré une série d'expériences dans le monde réel.
L'entrée est un « scan » de la scène, en particulier une vidéo RVB, avec des informations sur la profondeur et la pose de la caméra, et la sortie est une structure de graphe 3D construite de manière incrémentale.
Chaque nœud est un objet et les arêtes représentent les relations entre les objets, par exemple une tasse se trouvant « au-dessus » d'une table. Pour chaque objet, de grands modèles de vision-langage sont utilisés pour extraire les plongements vectoriels et légendes textuelles, plutôt que de simples étiquettes de classe sémantique.
La géométrie et l'apparence visuelle de chaque objet sont également stockées sous la forme d'un nuage de points RVB. Il en résulte une carte 3D complète de la scène, sur laquelle un⋅e utilisateur⋅trice peut facilement rechercher des objets à l'aide de requêtes en langage naturel, par exemple « un jouet en peluche » ou « des espadrilles rouges ». Cela permet aux robots de disposer d'un large éventail de capacités de perception et de planification des tâches.
8
ConceptGraphs est une grande collaboration entre 8 institutions de recherche avec un total de 16 auteur·rice·s.
30
À partir d'une simple description en langage naturel, ConceptGraphs a permis à un robot à roues d'identifier, de localiser et de naviguer vers 30 objets différents dans un environnement encombré au laboratoire de robotique de Montréal (REAL).
71+88
Pourcentage de précision mesuré des nœuds et des arêtes du graphe de scène construit par un annotateur expert humain d'Amazon Mechanical Turk, évalué sur le jeu de données Replica 3D de Meta.
ConceptGraphs nous permet d'exploiter la puissance des grands modèles de langage de vision pour la représentation du monde des robots. Cela permet aux robots d'effectuer rapidement des tâches abstraites assez impressionnantes.