ConceptGraphs

Combiner la vision et le langage pour aider les robots à naviguer dans le monde.

Formes géométriques sur fond bleu foncé.

Contexte

Pour fonctionner efficacement dans des environnements complexes, les robots doivent construire des représentations 3D de leur environnement pouvant être utilisées pour la planification et l'exécution de tâches. Il s’agit du problème de la compréhension de la scène, combinant divers domaines tels que la vision par ordinateur, le traitement du langage naturel et la modélisation 3D.

Les approches existantes se contentent généralement de catégoriser les objets à l'aide d'un ensemble fixe d'étiquettes sémantiques, ce qui est souvent insuffisant pour les tâches complexes. Toutefois, les progrès réalisés dans les modèles de fondation multimodaux permettent aujourd'hui de développer des solutions plus flexibles à « vocabulaire ouvert » palliant ces limitations.

Objectifs

ConceptGraphs est une avancée vers des robots exécutant des tâches directement à partir d'instructions en langage naturel. Il s'agit d'un système de cartographie intégrant les informations géométriques des approches traditionnelles de cartographie en 3D ainsi que les riches informations sémantiques des modèles de fondation de vision-langage.

À partir des données brutes des capteurs, ConceptGraphs construit un graphique de scène 3D des objets et de leurs relations, où les caractéristiques sémantiques ne sont pas limitées à une étiquette de classe sémantique prédéfinie. Cela permet aux robots d'effectuer des tâches complexes de navigation et de manipulation d'objets, comme l'a démontré une série d'expériences dans le monde réel.

À propos du projet

ConceptGraphs est un système de cartographie s'appuyant sur des modèles de fondation pour construire des graphes de scène 3D à vocabulaire ouvert.

L'entrée est un « scan » de la scène, en particulier une vidéo RVB, avec des informations sur la profondeur et la pose de la caméra, et la sortie est une structure de graphe 3D construite de manière incrémentale.

Chaque nœud est un objet et les arêtes représentent les relations entre les objets, par exemple une tasse se trouvant « au-dessus » d'une table. Pour chaque objet, de grands modèles de vision-langage sont utilisés pour extraire les plongements vectoriels et légendes textuelles, plutôt que de simples étiquettes de classe sémantique.

La géométrie et l'apparence visuelle de chaque objet sont également stockées sous la forme d'un nuage de points RVB. Il en résulte une carte 3D complète de la scène, sur laquelle un⋅e utilisateur⋅trice peut facilement rechercher des objets à l'aide de requêtes en langage naturel, par exemple « un jouet en peluche » ou « des espadrilles rouges ». Cela permet aux robots de disposer d'un large éventail de capacités de perception et de planification des tâches.

Institutions de recherche

ConceptGraphs est une grande collaboration entre 8 institutions de recherche avec un total de 16 auteur·rice·s.

Tâches d'identification d'objets et de navigation

À partir d'une simple description en langage naturel, ConceptGraphs a permis à un robot à roues d'identifier, de localiser et de naviguer vers 30 objets différents dans un environnement encombré au laboratoire de robotique de Montréal (REAL).

71+88

Précision des objets et des arêtes

Pourcentage de précision mesuré des nœuds et des arêtes du graphe de scène construit par un annotateur expert humain d'Amazon Mechanical Turk, évalué sur le jeu de données Replica 3D de Meta.

ConceptGraphs nous permet d'exploiter la puissance des grands modèles de langage de vision pour la représentation du monde des robots. Cela permet aux robots d'effectuer rapidement des tâches abstraites assez impressionnantes.

Liam Paull, professeur adjoint, Université de Montréal, membre académique principal, Mila

Ressources

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

Lire l'article https://arxiv.org/abs/2309.16650

ConceptGraphs : Graphes de scène 3D à vocabulaire ouvert pour la perception et la planification

Site web du projet ConceptGraphs

En savoir plus https://concept-graphs.github.io/

ConceptGraphs sur GitHub

Version officielle du code pour ConceptGraphs

En savoir plus https://github.com/concept-graphs/concept-graphs

Équipe

Membres Mila

Membre académique principal

Liam Paull

Professeur adjoint, Université de Montréal, Département d'informatique et de recherche opérationnelle

Chaire en IA Canada-CIFAR

Voir le profil

Kirsty Ellis

Développeuse, Logiciels de recherche, Innovation, développement et technologies

Voir le profil

Sacha Morin

Doctorat - UdeM

Voir le profil

Autres membres

Aditya Agarwal (Mila)

Bipasha Sen (Mila)

Joshua B. Tenenbaum

Rama Chellappa

Chuang Gan

Qiao Gu

Celso Miguel de Melo

Krishna Murthy Jatavallabhula

William Paul

Corban Rivera

Florian Shkurti

Antonio Torralba

Avantage IA

Mettre à profit l'IA pour un avenir durable

Bourse Mila en politiques de l'IA

Avantage IA

Mettre à profit l'IA pour un avenir durable

ConceptGraphs

Contexte

Objectifs

À propos du projet

ConceptGraphs est un système de cartographie s'appuyant sur des modèles de fondation pour construire des graphes de scène 3D à vocabulaire ouvert.

Institutions de recherche

Tâches d'identification d'objets et de navigation

Précision des objets et des arêtes

Ressources

Équipe

Partenaires

Avantage IA

Mettre à profit l'IA pour un avenir durable

Bourse Mila en politiques de l'IA

Avantage IA

Mettre à profit l'IA pour un avenir durable

Mots-clés populaires:

ConceptGraphs

Contexte

Objectifs

À propos du projet

ConceptGraphs est un système de cartographie s'appuyant sur des modèles de fondation pour construire des graphes de scène 3D à vocabulaire ouvert.

Institutions de recherche

Tâches d'identification d'objets et de navigation

Précision des objets et des arêtes

Ressources

Équipe

Partenaires