Describing Videos by Exploiting Temporal Structure
Les progrès récents dans l’utilisation des réseaux de neurones récurrents (RNN) pour la description d’image ont motivé l’exploration de leur application pour la description vidéo. Cependant, bien que les images soient statiques, travailler avec des vidéos nécessite de modéliser leur structure temporelle dynamique, puis d’intégrer correctement ces informations dans une description en langage naturel. Dans ce contexte, nous proposons une approche qui prend en compte avec succès la structure temporelle locale et globale des vidéos pour produire des descriptions. Premièrement, notre approche incorpore une représentation temporelle spatiale du réseau de neurones de convolution tridimensionnelle dans l’espace temporel (CNN en trois dimensions) de la dynamique temporelle courte. La représentation CNN en 3D est formée aux tâches de reconnaissance d’actions vidéo afin de produire une représentation adaptée au mouvement et au comportement humains. Deuxièmement, nous proposons un mécanisme d’attention temporelle qui permet d’aller au-delà de la modélisation temporelle locale et d’apprendre à sélectionner automatiquement les segments temporels les plus pertinents en fonction du RNN générateur de texte. Notre approche dépasse l’état actuel des connaissances pour les métriques BLEU et METEOR sur le jeu de données Youtube2Text. Nous présentons également les résultats d’un nouvel ensemble de données, plus vaste et plus complexe, comprenant des descriptions de vidéos et des descriptions en langage naturel couplées.
Reference
Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, CDescribing Videos by Exploiting Temporal Structure, in: 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, pp. 4507-4515, 2015
, and ,