ConceptGraphs

Combiner la vision et le langage pour aider les robots à naviguer dans le monde.

Formes géométriques sur fond bleu foncé.

Contexte

Pour fonctionner efficacement dans des environnements complexes, les robots doivent construire des représentations 3D de leur environnement pouvant être utilisées pour la planification et l'exécution de tâches. Il s’agit du problème de la compréhension de la scène, combinant divers domaines tels que la vision par ordinateur, le traitement du langage naturel et la modélisation 3D. 

Les approches existantes se contentent généralement de catégoriser les objets à l'aide d'un ensemble fixe d'étiquettes sémantiques, ce qui est souvent insuffisant pour les tâches complexes. Toutefois, les progrès réalisés dans les modèles de fondation multimodaux permettent aujourd'hui de développer des solutions plus flexibles à « vocabulaire ouvert » palliant ces limitations.

Objectifs

ConceptGraphs est une avancée vers des robots exécutant des tâches directement à partir d'instructions en langage naturel. Il s'agit d'un système de cartographie intégrant les informations géométriques des approches traditionnelles de cartographie en 3D ainsi que les riches informations sémantiques des modèles de fondation de vision-langage. 

À partir des données brutes des capteurs, ConceptGraphs construit un graphique de scène 3D des objets et de leurs relations, où les caractéristiques sémantiques ne sont pas limitées à une étiquette de classe sémantique prédéfinie. Cela permet aux robots d'effectuer des tâches complexes de navigation et de manipulation d'objets, comme l'a démontré une série d'expériences dans le monde réel.

À propos du projet

ConceptGraphs est un système de cartographie s'appuyant sur des modèles de fondation pour construire des graphes de scène 3D à vocabulaire ouvert. 

L'entrée est un « scan » de la scène, en particulier une vidéo RVB, avec des informations sur la profondeur et la pose de la caméra, et la sortie est une structure de graphe 3D construite de manière incrémentale. 

 

Chaque nœud est un objet et les arêtes représentent les relations entre les objets, par exemple une tasse se trouvant « au-dessus » d'une table. Pour chaque objet, de grands modèles de vision-langage sont utilisés pour extraire les plongements vectoriels et légendes textuelles, plutôt que de simples étiquettes de classe sémantique. 

 

La géométrie et l'apparence visuelle de chaque objet sont également stockées sous la forme d'un nuage de points RVB. Il en résulte une carte 3D complète de la scène, sur laquelle un⋅e utilisateur⋅trice peut facilement rechercher des objets à l'aide de requêtes en langage naturel, par exemple « un jouet en peluche » ou « des espadrilles rouges ». Cela permet aux robots de disposer d'un large éventail de capacités de perception et de planification des tâches.

8

Institutions de recherche

ConceptGraphs est une grande collaboration entre 8 institutions de recherche avec un total de 16 auteur·rice·s.

30 

 Tâches d'identification d'objets et de navigation  

À partir d'une simple description en langage naturel, ConceptGraphs a permis à un robot à roues d'identifier, de localiser et de naviguer vers 30 objets différents dans un environnement encombré au laboratoire de robotique de Montréal (REAL).

71+88

Précision des objets et des arêtes

Pourcentage de précision mesuré des nœuds et des arêtes du graphe de scène construit par un annotateur expert humain d'Amazon Mechanical Turk, évalué sur le jeu de données Replica 3D de Meta.

Photo de Liam Paull

ConceptGraphs nous permet d'exploiter la puissance des grands modèles de langage de vision pour la représentation du monde des robots. Cela permet aux robots d'effectuer rapidement des tâches abstraites assez impressionnantes.

Liam Paull, professeur adjoint, Université de Montréal, membre académique principal, Mila

Ressources

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
ConceptGraphs : Graphes de scène 3D à vocabulaire ouvert pour la perception et la planification
Site web du projet ConceptGraphs
ConceptGraphs sur GitHub
Version officielle du code pour ConceptGraphs

Équipe

Membres Mila
Membre académique principal
Portrait de Liam Paull
Professeur adjoint, Université de Montréal, Département d'informatique et de recherche opérationnelle
Chaire en IA Canada-CIFAR
Portrait de Kirsty Ellis n'est pas disponible
Développeuse, Logiciels de recherche, Innovation, développement et technologies
Portrait de Sacha Morin
Doctorat - UdeM
Autres membres
Aditya Agarwal (Mila)
Bipasha Sen (Mila)
Joshua B. Tenenbaum
Rama Chellappa
Chuang Gan
Qiao Gu
Celso Miguel de Melo
Krishna Murthy Jatavallabhula
William Paul
Corban Rivera
Florian Shkurti
Antonio Torralba

Partenaires