Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

Avr 2019

Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

Avr 2019

Apprendre de bonnes représentations sans supervision reste un problème en suspens dans l’apprentissage automatique et est particulièrement difficile pour les signaux de parole, qui se caractérisent souvent par de longues séquences avec une structure hiérarchique complexe. Certains travaux récents ont toutefois montré qu’il était possible de dériver des représentations de la parole utiles en employant une approche auto-supervisée codeur-discriminateur. Cet article propose une méthode auto-supervisée améliorée, dans laquelle un seul encodeur neuronal est suivi de plusieurs travailleurs qui résolvent conjointement différentes tâches auto-supervisées. Le consensus nécessaire entre les différentes tâches impose naturellement des contraintes significatives au codeur, ce qui contribue à la découverte des représentations générales et à la réduction du risque d’apprentissage des représentations superficielles. Les expériences montrent que l’approche proposée peut apprendre des caractéristiques transférables, robustes et dépendantes du problème qui transmettent des informations pertinentes du signal de la parole, telles que l’identité du locuteur, les phonèmes et même des caractéristiques de niveau supérieur telles que les signaux émotionnels. En outre, un certain nombre de choix de conception permettent au codeur d’être facilement exportable, ce qui facilite son utilisation directe ou son adaptation à différents problèmes.

Reference

https://arxiv.org/abs/1904.03416

PDF

Linked Profiles