Mila > Publication > h-detach: Modifying the LSTM Gradient Towards Better Optimization

h-detach: Modifying the LSTM Gradient Towards Better Optimization

Sep 2018

h-detach: Modifying the LSTM Gradient Towards Better Optimization

Sep 2018

Les réseaux de neurones récurrents sont connus pour leur problème de gradient notoire d’explosion et de disparition (EVGP). Ce problème devient plus évident dans les tâches où les informations nécessaires pour les résoudre correctement existent sur de longues périodes, car EVGP empêche la rétropropagation de composants importants du dégradé sur un grand nombre d’étapes. Nous introduisons un algorithme stochastique simple (\ textit {h} -detach) spécifique à l’optimisation LSTM et destiné à résoudre ce problème. Plus précisément, nous montrons que lorsque les poids LSTM sont importants, les composantes du gradient passant par le chemin linéaire (état de la cellule) dans le graphique de calcul LSTM sont supprimées. En supposant que ces composants contiennent des informations sur les dépendances à long terme (ce que nous montrons empiriquement), leur suppression peut empêcher les LSTM de les capturer. Notre algorithme \ footnote {Notre code est disponible à l’adresse https://github.com/bhargav104/h-detach.} empêche les dégradés qui passent par ce chemin d’être supprimés, permettant ainsi au LSTM de mieux capturer de telles dépendances. Nous présentons des améliorations significatives par rapport à la formation vanille basée sur le gradient LSTM en termes de vitesse de convergence, de robustesse face aux semences et de taux d’apprentissage et de généralisation à l’aide de notre modification du gradient LSTM sur divers jeux de données de référence.

Reference

https://openreview.net/forum?id=ryf7ioRqFX

Linked Profiles