Des chercheurs mènent la plus grande étude jamais réalisée sur les substances psychédéliques en utilisant des outils de traitement du langage naturel

par
Brigitte Tousignant
Des chercheurs mènent la plus grande étude jamais réalisée sur les substances psychédéliques en utilisant des outils de traitement du langage naturel

Longtemps stigmatisées, les substances psychédéliques comme la psilocybine et la MDMA gagnent en importance dans la recherche clinique en tant qu’options thérapeutiques potentielles pour certaines maladies mentales majeures, notamment le trouble de stress post-traumatique, la dépression et la schizophrénie. Ce domaine de recherche est en plein essor alors que la COVID-19 a sensibilisé le monde entier aux conséquences majeures des problèmes de santé mentale.

Bien que cette nouvelle tendance soit prometteuse, il reste beaucoup à comprendre sur la façon dont ces substances médicamenteuses modifient les états de conscience et la perception humaine.

Dans le cadre de la plus grande étude mondiale sur les substances psychédéliques et le cerveau à ce jour, Danilo Bzdok — professeur à Mila et à l’Université McGill chercheur du Neuro — et des chercheurs du du Broad Institute du MIT et de Harvard, de la SUNY Downstate Health Sciences University révèlent, grâce à des outils de traitement du langage naturel (« natural language processing » ou NLP) issus de l’apprentissage automatique, comment les modifications des états de conscience induites par les drogues s’ancrent anatomiquement dans des systèmes spécifiques de récepteurs de neurotransmetteurs.

 

Le recours au NLP pour examiner les états modifiés de conscience sur les systèmes de neurotransmetteurs

Les substances psychédéliques et autres drogues hallucinogènes font partie intégrante de la contre-culture depuis longtemps. Elles peuvent occasionner des effets si profonds que les consommateurs tendent souvent à partager leurs histoires et expériences personnelles de manière très détaillée, qu’elles soient positives ou négatives. Ce phénomène a donné lieu à de nombreux rapports de première main disponibles publiquement. À titre d’exemple, l’organisme à but non lucratif Erowid héberge une bibliothèque pédagogique contenant plus de 38 000 témoignages sur les effets des drogues psychoactives.

Sur ce portail, les chercheurs ont extrait 6 850 témoignages de haute qualité de personnes ayant consommé 27 substances psychédéliques différentes, dans lesquels les participants décrivaient ouvertement leurs expériences personnelles avec des hallucinogènes.

Pour permettre la modélisation des récepteurs cérébraux et des expériences qui leur sont associés, le Dr Bzdok et son équipe ont construit un codage par sac de mots (ou bag-of-words en anglais) des descriptions textuelles de chaque témoignage et ont compté le nombre de mots par témoignage (voir la section « Natural language processing pipeline » de l’étude). Cette représentation des témoignages a permis de saisir directement la manière dont les individus articulent les changements liés à leur conscience, ce qui implique la pensée, la perception, les émotions et d’autres altérations psychologiques. Avant d’appliquer le codage par sac de mots, les chercheurs ont élagué le texte, par exemple en supprimant les signes de ponctuation et les caractères spéciaux, en éliminant les mots de moins de deux caractères, en supprimant les mots qui apparaissaient moins de sept fois dans l’ensemble du corpus de rapports d’expérience, et en supprimant les prépositions courantes, comme les pronoms, les noms de médicaments et les déterminants. Par la suite, tous les mots du dictionnaire ont été mis en minuscules par souci de cohérence. Cette tactique d’encodage par sac de mots a permis d’obtenir une matrice de mots M comptant plus de 14 000 mots uniques.

Pour traiter la matrice M des mots des témoignages, l’équipe a appliqué la transformation tf-idf (term-frequency inverse-document-frequency en anglais) couramment utilisée en NLP (1). Cette étape a permis aux chercheurs de calculer la fréquence d’apparition de chaque mot pour un témoignage donné de manière à tenir compte de sa prévalence globale dans l’ensemble du corpus de rapports d’expérience. Cependant, ce type de représentation par sac de mots ignore l’ordre des mots et ne tient donc pas compte des séquences d’événements dans les rapports d’expérience. Ce schéma de codage permet toutefois de saisir des informations sémantiques de haute granularité dans de nombreuses applications d’exploration de texte (2).

Pour rechercher et organiser automatiquement l’espace des représentations sémantiques dans les rapports d’expérience, les chercheurs ont fait appel à l’analyse sémantique latente (« latent semantic analysis » ou LSA en anglais) pour identifier les relations (3). La LSA leur a permis de détecter et d’extraire de manière fiable les similitudes au sein d’ ensembles de mots qui reviennent dans un témoignage au point  où cela est attribuable à un contexte sémantique commun. L’application de la LSA à la matrice traitée M, générée après la transformation tf-idf sur la matrice du sac de mots, a permis l’extraction d’un ensemble de composantes sémantiques, ordonnées de la plus significative à la moins significative en fonction de la variance expliquée dans le résumé des combinaisons d’utilisation des mots.

Deux facteurs décisifs ont influencé le choix des substances pour lesquelles des rapports d’expérience ont été sélectionnés : la substance psychédélique devait avoir une affinité de liaison aux récepteurs bien connue (4, 5) et produire des effets par l’intermédiaire de plusieurs systèmes de récepteurs. Sur la base de leur affinité de liaison aux récepteurs, l’équipe a construit un vecteur normalisé pour les substances qui capturent les forces de liaison \( K_ {i} \) de 40 cibles : récepteurs couplés aux protéines G (RCPG), transporteurs moléculaires et canaux ioniques.

L’équipe voulait adopter une stratégie axée sur les données pour trouver les facteurs dominants – les « modes » de variation conjointe – qui expliquent comment les composantes sémantiques émergeant des modèles d’utilisation des mots sont liées aux affinités de liaison des récepteurs de 40 sous-classes de récepteurs de neurotransmetteurs. Ils ont conclu que l’algorithme de l’analyse canonique des corrélations (ACC) était parfaitement adapté pour étudier la possibilité d’une telle correspondance multimodale entre deux ensembles de variables à haute dimension (6, 7). 

Les chercheurs ont sélectionné les \(k\)=800 premiers composants sémantiques découverts à partir de la deuxième représentation des rapports d’expérience dérivée de la LSA, qui ont formé le premier ensemble de variables \( X_ {|témoignages| x k} \). Le deuxième ensemble de variables \( Y_ {|témoignages| x 40} \) a été élaboré à partir des propriétés pharmacologiques connues de chaque substance quant à son affinité moléculaire avec les récepteurs des neurotransmetteurs.

L’ACC implique le calcul des vecteurs de projection \(a\) et \(b\) qui maximisent la relation entre une combinaison linéaire de contextes sémantiques (\(X\)) et une combinaison linéaire de profils d’affinité de récepteurs (\(Y\)) à travers les témoignages. L’ACC explore un large éventail de combinaisons possibles en identifiant les deux projections \(Xa\) et \(Yb\) qui donnent une association maximale entre les caractéristiques du contexte sémantique lors de l’expérience de consommation la drogue et les neurotransmetteurs du cerveau auxquels la drogue se lie.

Les outils NLP et la modélisation conjointe du CCA ont permis aux chercheurs d’incorporer les forces de liaison relatives des récepteurs des substances ainsi que l’ensemble des composantes sémantiques extraites des témoignages pour élucider la distribution spatiale des composés hallucinogènes qui modulent l’activité neuronale à travers le cortex lors des expériences psychédéliques subjectives.

Cette approche basée sur l’apprentissage automatique pour comprendre le fonctionnement cérébral des psychédéliques est une première étape importante pour les travaux futurs dans ce domaine qui pourraient conduire à des systèmes d’apprentissage automatique capables de prévoir plus précisément quelles combinaisons de récepteurs de neurotransmetteurs doivent être stimulées pour induire un état spécifique d’expérience consciente chez une personne.

Cette étude a été publiée dans la revue Science Advances le 16 mars 2022.

 

Références

  1. R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval (ACM Press, 1999), vol. 463.
  2. Baeza-Yates,R.,Ribeiro-Neto,B.& Others. Modern information retrieval.vol.463(ACMpressNewYork, 1999). 
  3. Landauer,T.K.LatentSemanticAnalysis.EncyclopediaofCognitiveScience(2006) doi:10.1002/0470018860.s00561. 
  4. Ray,T.S.Psychedelics and the human receptorome.PLoSOne5,e9019(2010).
  5. Rickli, A. et al. Receptor interaction profiles of novel N-2-methoxybenzyl(NBOMe) derivatives of 2,5-dimethoxy-substituted phenethylamines (2C drugs). Neuropharmacology 99, 546–553 (2015). 
  6. Smith, S.M. et al. A positive-negative mode of population covariation links brain connectivity, demographics and behavior. Nat. Neurosci. 18, 1565–1567 (2015). 
  7. Wang, H.-T .et al. Finding the needle in a high-dimensional haystack: Canonical correlation analysis for neuroscientists. Neuroimage 216, 116745 (2020).