L'IA en mouvement : l'étude de cas de D-Box

d-box chairs

Contexte

Depuis quelques années, les films sont devenus plus sonores, plus longs et plus stimulants que jamais. Avec les énormes écrans IMAX et le son panoramique, on a presque l'impression d'être dans le film lui-même — il ne manque plus qu'à ressentir le grondement de la poursuite en voiture ou le boom de l’explosion. C'est exactement ce qu'une équipe de chercheurs appliqués de Mila a aidé à faire, dans le cadre d'une collaboration avec D-BOX, un partenaire industriel qui se spécialise dans la création d'expériences immersives hyperréalistes au cinéma en ajoutant des effets haptiques aux sièges de cinéma.

Un projet industriel collaboratif

Mirko Bronzi, Bruce Wen et Gaétan Marceau Caron, chercheurs appliqués chez Mila, ont lancé un projet de recherche appliquée avec des experts de D-BOX en 2022, dans le but de faciliter l'utilisation de l'IA dans les processus de D-BOX — autrement dit, créer un système automatique pour analyser les films, comprendre le contenu des scènes du film et décider quels signaux envoyer à ces sièges immersifs et mobiles. 

Des chercheurs de Mila travaillant sur le projet D-Box.

Jusqu'alors, l'équipe d'experts haptiques de D-BOX regardait des films et notait les différents événements visuels et sonores du film. Lors d'une explosion, par exemple, la secousse et le grondement du siège devaient être parfaitement synchronisés pour être réalistes, une tâche de conception méticuleuse et quelquefois ardue. Il était clair que, grâce à l'IA, les données visuelles et sonores pouvaient faciliter l'identification des événements dans les films et générer les effets haptiques correspondants pour enrichir l'expérience de l'utilisateur pendant le visionnement. 

Grâce à des années de conception haptique, D-BOX a pu accumuler de grandes quantités de données cinématographiques et  étudier le moment et la nature de chaque événement — coups de feu, explosions, poursuites automobiles— une liste presque infinie de différents repères qui pourraient être utilisés dans l'apprentissage machine. En utilisant des modèles d'apprentissage profond de pointe pour la compréhension des vidéos, les chercheurs de Mila ont créé différents modèles pour identifier les événements dans les films qui pourraient ensuite être utilisés pour proposer l'effet haptique correspondant, comme une première ébauche de certaines des tâches que les concepteurs haptiques de D-BOX effectuent généralement. 

« La chose la plus importante à déterminer est le moment où le siège doit vibrer, et c'était un des principaux défis de ce projet, parce que ça doit être très précis », a expliqué Mirko. « Si on voit une explosion et que le fauteuil vibre ne serait-ce que 100 millisecondes trop tôt, on peut sentir la différence et ça ne fonctionne plus — on perd la sensation d'immersion. »

Mirko cite Mission Impossible, que les chercheurs ont regardé encore et encore, par bribes, pour que les modèles soient bien alignés. Lorsqu'on leur a demandé s'ils en avaient marre de ce film, Bruce et Mirko ont tous deux ri. 
« Oh oui, » a plaisanté Mirko, sans hésiter. « Mais ce n'est rien comparé à John Wick. »

Une approche unique et multidimensionnelle

L’approche de l’équipe de Mila s’est distinguée par l'intégration de différents modèles de base et par la combinaison d'informations provenant de repères sonores et visuels. Mirko a souligné l'utilité de leur système tripartite qui permet une reconnaissance détaillée des événements grâce à une analyse à la fois locale et contextuelle. Un coup de feu, par exemple, peut être difficile à identifier en utilisant uniquement des repères visuels. La combinaison du repère visuel avec un élément audio plus large (par exemple : « il y a un son pendant ces 10 secondes et il s'agit bien d'un coup de feu ») et un élément audio étroit et précis (par exemple : « le son se produit précisément à ce moment ») a permis d'obtenir un modèle considérablement plus fiable qu'en utilisant l'un ou l'autre de ces éléments isolément.

Une fois le modèle entraîné, l'équipe a utilisé un logiciel fourni par D-BOX pour visualiser directement le degré d'alignement de la sortie avec les événements réels du film. 

« Cela nous a permis de voir plus facilement, par exemple, qu'un résultat était faux parce qu'il était décalé de 50 millisecondes », a expliqué Mirko. « On pouvait aussi voir que parfois les images n'avaient pas l'air correctes, par exemple lorsqu’on entendait  le son de quelqu'un qui tirait, mais que l'image montrait un autre personnage — dans ce cas, les données visuelles n'aidaient pas vraiment. C'est bon à savoir, et c'est important d'investir du temps pour bien comprendre les données. »

Enseignements et leçons tirées de l'expérience

Lorsqu'on leur demande les leçons et les enseignements qu'ils retiendraient pour de futurs projets, Mirko et Bruce sont d'accord : l'établissement de priorités et le retour d'information itératif. 

Certains repères, par exemple, étaient difficiles à automatiser, car ils apparaissaient trop rarement pour fournir beaucoup de données. Des événements tels que les feux d'artifice ou le raclement d'une lame ont constitué un défi, mais l'équipe a réussi à atténuer ce problème en utilisant des modèles pré-entraînés sur une plus grande quantité de données externes, plutôt que de se limiter aux données contenues dans les films à leur disposition. L’équipe a également tenté l’augmentation de données, méthode qui consiste à transformer les données existantes pour les faire passer pour de nouvelles données sur lesquelles entraîner les modèles.

Mais au-delà de ces approches, l'équipe a expliqué qu'il s'agissait également de décider, avec les spécialistes de D-BOX, quels types d'événements devaient être priorisés afin d'en tirer le plus grand bénéfice — une collaboration synergique qui a permis à l'équipe de sentir que son travail était adapté au client et que son impact était ressenti.

L'équipe a également souligné l'importance d'intégrer régulièrement la rétroaction, qu'elle a souvent reçue grâce à l'implication enthousiaste de D-BOX dans le projet. 

« Nous avons développé des algorithmes automatiques pour évaluer nos modèles, mais nous savions dès le départ que cela ne suffirait probablement pas, car ce ne serait pas aussi précis qu'une évaluation humaine », a expliqué Bruce. « Nous avons donc organisé plusieurs points de contrôle avec D-BOX et demandé à leurs experts d'examiner manuellement les performances de notre modèle. Nous avons utilisé l'évaluation humaine pour calibrer l'évaluation automatique. »

Un succès bientôt mis en pratique 

En février 2024, l'expérience haptique des sièges D-BOX générée entièrement par l'IA a été présentée dans l'auditorium de Mila. Les employés et les chercheurs curieux ont pu tester le siège en regardant des scènes de films comme Kingsman, Rambo ou RRR, tout en étant secoués et ballotés à chaque moment d'action. Mirko et Bruce ont eux-mêmes été impressionnés de voir à quel point les sièges haptiques fonctionnaient bien sur de nouveaux films — pas juste Mission Impossible ou John Wick, mais des films qui n'avaient pas été utilisés pour entraîner les modèles. Pour les simples observateurs, il était amusant de voir le spectateur être ballotté tout en étant concentré sur le film. Mais une fois dans le fauteuil, en regardant la scène, cela prenait tout son sens. La synchronisation et la direction des mouvements du siège étaient intégrées de manière fluide à l'expérience visuelle et rendaient les scènes déjà excitantes encore plus intenses.


Dans l'ensemble, l'équipe de Mila considère le projet comme un succès retentissant. Loin de rendre les experts de D-BOX obsolètes, il leur permet au contraire d'économiser de maximiser leurs ressources. Plutôt que d'avoir à examiner et à annoter chaque coup de feu ou chaque explosion, les designers haptiques peuvent se concentrer davantage sur la valeur ajoutée de leur expertise. Le travail peut être étendu grâce à un processus efficace et fiable. 

Enfin, l'équipe a pu ressentir l'impact de son travail grâce au feedback enthousiaste de D-BOX. Mirko raconte que lors d'une visite dans les bureaux de D-BOX, ils lui ont montré un organigramme de l'entreprise sur lequel les photos de Mirko et de Bruce avaient été ajoutées, afin de souligner l'importance de leur aide. Selon l'équipe, D-BOX était très satisfait du résultat du projet et compte incorporer le nouveau modèle dans ses projets à venir.

« C'était un excellent projet, surtout grâce à la quantité et à la qualité des données et à l'implication de D-BOX », a expliqué Bruce. « Le projet était une très bonne expérience, et nous sommes vraiment satisfaits des résultats. »

Équipe

Membres Mila
Portrait de Mirko Bronzi
Scientifique senior en recherche appliquée, Recherche appliquée en apprentissage automatique
Portrait de Bruce (Zhi) Wen
Scientifique senior en recherche appliquée, Recherche appliquée en apprentissage automatique
Portrait de Gaétan Marceau Caron
Directeur principal, Recherche appliquée en apprentissage automatique

Des questions à propos du projet?