GuessWhat?! Visual object discovery through multi-modal dialogue

Fév 2017

GuessWhat?! Visual object discovery through multi-modal dialogue

Fév 2017

Nous présentons GuessWhat?!, un jeu de devinerie à deux joueurs servant de banc d’essai pour la recherche sur l’interaction entre la vision par ordinateur et les systèmes de dialogue. Le but du jeu est de localiser un objet inconnu dans une scène riche en images en posant une séquence de questions. Une compréhension d’image supérieure, telle que le raisonnement spatial et la formation linguistique, est nécessaire pour résoudre la tâche proposée. Notre contribution clé est la collecte d’un ensemble de données à grande échelle comprenant 150 000 jeux joués par l’homme, avec un total de 800 000 paires de questions-réponses visuelles sur 66 000 images. Nous expliquons nos décisions en matière de conception lors de la collecte de l’ensemble de données et présentons les tâches d’oracle et d’interrogateur associées aux deux joueurs du jeu. Nous avons créé des modèles d’apprentissage en profondeur pour établir les bases initiales des tâches introduites.

Lien pour la demo.

Reference

[arXiv:1611.08481] [CVPR2017]

GuessWhat?!

GuessWhat?! Visual object discovery through multi-modal dialogue

Reference

Linked Profiles

Harm De Vries

Sarath Chandar

Aaron Courville

Hugo Larochelle