Deep convolutional networks for quality assessment of protein folds

Juin 2018

Deep convolutional networks for quality assessment of protein folds

Juin 2018

Motivation

La prédiction informatique d’une structure protéique à partir de sa séquence repose généralement sur une méthode permettant d’évaluer la qualité des modèles protéiques. La plupart des méthodes d’évaluation classent les modèles candidats en utilisant des caractéristiques structurelles hautement techniques, définies comme des fonctions complexes des coordonnées atomiques. Cependant, très peu de méthodes ont tenté d’apprendre ces caractéristiques directement à partir des données.

Resultats

Nous montrons que les réseaux de convolution profonds peuvent être utilisés pour prédire le classement des structures de modèle uniquement sur la base de leurs densités atomiques brutes tridimensionnelles, sans aucun réglage des caractéristiques. Nous développons un réseau de neurones profonds fonctionnant au même niveau que les algorithmes les plus avancés de la littérature. Le réseau est formé sur les leurres des jeux de données CASP7 à CASP10 et ses performances sont testées sur le jeu de données CASP11. Des tests supplémentaires effectués sur des leurres provenant des jeux de données CASP12, CAMEO et 3DRobot confirment que le réseau fonctionne toujours correctement sur diverses structures de protéines. Bien que le réseau apprenne à évaluer les leurres structurels au niveau mondial et ne s’appuie sur aucune fonctionnalité prédéfinie, il peut être analysé pour montrer qu’il identifie implicitement les régions qui s’écartent de la structure native.

Disponibilité

Le code et les jeux de données sont disponibles sur https://github.com/lamoureux-lab/3DCNN_MQA.

Information supplémentaire

Des données supplémentaires sont disponibles sur Bioinformatics online.

Reference

Georgy Derevyanko, Sergei Grudinin, Yoshua Bengio, Guillaume Lamoureux; Deep convolutional networks for quality assessment of protein folds, Bioinformatics, bty494

https://doi.org/10.1093/bioinformatics/bty494

Source code

https://github.com/lamoureux-lab/3DCNN_MQA

Learning to predict if protein model is correct