Mila > Publication > Deep Learning for Video > Describing Multimedia Content using Attention-based Encoder–Decoder Networks

Describing Multimedia Content

Deep Learning for Video
Sep 2015

Describing Multimedia Content using Attention-based Encoder–Decoder Networks

Sep 2015

Alors que les réseaux de neurones profonds étaient principalement utilisés pour les tâches de classification, ils se développent rapidement dans le domaine des problèmes de production structurés, où la cible observée est composée de multiples variables aléatoires ayant une distribution conjointe riche, en fonction des entrées. Dans cet article, nous nous concentrons sur le cas où l’entrée a également une structure riche et où les structures d’entrée et de sortie sont en quelque sorte liées. Nous décrivons les systèmes qui apprennent à s’occuper de différents endroits dans l’entrée, pour chaque élément de la sortie, pour une variété de tâches: traduction automatique, génération de légendes d’images, description de clips vidéo et reconnaissance vocale. Tous ces systèmes reposent sur un ensemble de blocs de construction communs: des réseaux de neurones récurrents contrôlés et des réseaux de neurones de convolution, ainsi que des mécanismes d’attention formés. Nous rapportons des résultats expérimentaux avec ces systèmes, montrant une performance impressionnante et l’avantage du mécanisme d’attention.

Yoshua IEEE

Reference

Kyunghyun Cho, Aaron Courville and Yoshua Bengio, Describing Multimedia Content Using Attention-Based Encoder-Decoder Networks, in: IEEE Transactions on Multimedia, vol. 17, no. 11, pp. 1875-1886, 2015

 

Linked Profiles