Mila > Publication > Efficient Implementations of Deep Nets > Efficient Exact Gradient Update for training Deep Networks with Very Large Sparse Targets

Large Output Spaces

Efficient Implementations of Deep Nets
Déc 2015

Efficient Exact Gradient Update for training Deep Networks with Very Large Sparse Targets

Déc 2015
Network

Une classe importante de problèmes implique la formation de réseaux de neurones profonds avec des cibles de prédiction éparses de très haute dimension D. Celles-ci apparaissent naturellement dans par exemple des modèles de langage neuronal ou dans l’apprentissage de l’intégration de mots, souvent présentés comme une prédiction de la probabilité de mots suivants dans un vocabulaire de taille D (par exemple 200 000). Le calcul du vecteur de sortie en dimension D tout aussi grand, mais généralement non fragmenté, à partir d’une dernière couche cachée de dimension raisonnable d (par exemple 500) engendre un coût de calcul O (Dd) prohibitif pour chaque exemple, tout comme la mise à jour de la matrice de pondération en sortie D x d et calculer le gradient nécessaire pour la rétropropagation aux couches précédentes. Bien que le traitement efficace de grandes entrées de réseau éparses soit trivial, le cas de grandes cibles éparses ne l’est pas et a jusqu’à présent été écarté avec des alternatives approximatives telles que des softmax hiérarchiques ou des approximations basées sur l’échantillonnage au cours de la formation. Dans ce travail, nous développons une approche algorithmique originale qui, pour une famille de fonctions de perte comprenant une erreur carrée et un softmax sphérique, permet de calculer la perte exacte, la mise à jour du gradient pour les poids de sortie et le gradient pour la rétropropagation, le tout en O (d ^ 2 ) par exemple au lieu de O (Dd), remarquablement sans jamais calculer la sortie en dimension D. L’algorithme proposé accélère D / 4d, c’est-à-dire deux ordres de grandeur pour des tailles typiques, pour cette partie critique des calculs qui domine souvent la durée de formation dans ce type d’architecture de réseau.

Reference

Pascal Vincent, Alexandre de Brébisson, Xavier Bouthillier, Exact Gradient Update for training Deep Networks with Very Large Sparse Targets, in: Advances in Neural Information Processing Systems 28 (NIPS), pp. 1108-1116, 2015

Linked Profiles