Yoshua Bengio, Daphne Ippolito, Richard Janda, Max Jarvie, Benjamin Prud’homme, Jean-Francois Rousseau, Abhinav Sharma, Yun William Yu
De nombreuses propositions ont été formulées récemment en vue d’utiliser des applications mobiles pour faciliter le traçage de contacts dans le but de contrôler la pandémie de SRAS-CoV-2 (COVID-19). Toutefois, bien que de nombreuses applications visent à protéger la vie privée des individus, la nature même du traçage de contacts doit dévoiler certains renseignements personnels autrement protégés. Il existe des risques endémiques pour la vie privée qui ne peuvent être éliminés par des moyens technologiques et qui peuvent nécessiter des solutions juridiques ou économiques. Dans cette lettre, nous abordons quelques-unes de ces limites inhérentes à la protection de la vie privée de tout système décentralisé de traçage automatique de contacts.
La pandémie de COVID-19 a suscité beaucoup d’intérêt pour l’utilité potentielle d’applications de traçage automatique [Ferretti et coll., Science, 2020] et une inquiétude quant à leurs effets négatifs potentiels sur la vie privée des individus [Sharma et coll., Nature Medicine, 2020]. La protection de la vie privée des individus est largement reconnue comme importante pour différentes raisons et par différents groupes d’intérêt. Pour certains, il s’agit d’une fin en soi, alors que d’autres la considèrent comme un souhait fondamental pour les institutions démocratiques et pour le bon fonctionnement de la société civile. Mais il est également reconnu que plusieurs institutions sociales, services publics et privés et autres systèmes bénéfiques aux individus, aux institutions démocratiques et à la société civile ne peuvent fonctionner sans un certain degré d’accès aux renseignements personnels. Pour répondre à ces objectifs concurrents, des cadres juridiques ont été mis en place dans de nombreux territoires dans le but d’établir les règles de base du traitement des renseignements personnels (par exemple, la GDPR en Europe, la HIPAA [pour les renseignements personnels sur la santé] aux États-Unis, ainsi que la LPRPDE et des lois similaires au Canada). L’un des objectifs communs à ces divers régimes est l’accent mis sur des mesures de sécurité adéquates : lorsque des entreprises et des institutions recueillent, utilisent et divulguent des renseignements personnels, les systèmes mis en place pour faciliter ces activités doivent réduire au minimum les possibilités d’accès non autorisé, et donc les risques d’utilisation involontaire [Ienca et coll., Nature Medicine, 2020].
Le respect de ces obligations constitue une première étape fondamentale pour les applications de traçage automatique de contacts axées sur la protection de la vie privée. Pour qu’une telle application produise des résultats, elle doit généralement avoir été installée par les deux parties au contact (la personne diagnostiquée et la personne exposée), ce qui signifie que l’adoption par les utilisateurs est essentielle au fonctionnement du traçage de contacts [Hinch et coll., 2020]. Dans les pays où l’installation de ces applications est volontaire, les utilisateurs peuvent choisir de ne pas installer une application si elle divulgue trop de renseignements personnels [Simko et coll., arXiv, 2020]. L’application de lois sur la protection de la vie privée et des données peut donner aux utilisateurs individuels un certain niveau d’assurance que leurs renseignements personnels ne seront pas indûment exposés.
Pourtant, le respect de ces lois n’est encore qu’une première étape, car dans le contexte des applications de traçage automatique destinées à un déploiement général auprès de vastes populations, il n’est pas certain qu’une simple adhésion soit suffisante. Ainsi, de nombreuses applications de ce type misent sur des protocoles de protection de la vie privée qui visent à décentraliser le traitement, le stockage et le contrôle du système, et plus généralement à diminuer le degré de confiance que les utilisateurs doivent investir dans le système.
Même en présence de tels contrôles, il subsiste des risques résiduels pour la vie privée dans tous les systèmes décentralisés de traçage de contacts. Nous estimons qu’il est primordial de reconnaître et d’analyser ces risques inhérents, afin que les utilisateurs finaux et les décideurs politiques puissent prendre des décisions volontaires et éclairées sur les compromis en matière de protection de la vie privée qu’ils sont prêts à tolérer dans le cadre de la lutte contre la pandémie de COVID-19. Pour les utilisateurs finaux en particulier, lorsque les fondements juridiques de l’utilisation de renseignements personnels dans le cadre du traçage de contacts reposent sur le consentement, il est important que des informations sur les risques inhérents soient accessibles à tous et à toutes afin que le consentement obtenu ait un sens.
Examinons les propriétés les plus fondamentales que doit posséder toute application de traçage automatique décentralisé de contacts : 1) lorsque deux téléphones se trouvent à quelques mètres l’un de l’autre, un « contact » est enregistré, et 2) lorsque le statut COVID-19 d’un utilisateur (Michel) change, tous ses contacts (avec une personne que nous appellerons Hélène) des 14 derniers jours sont informés de cette exposition et du jour où elle s’est produite. En pratique, les applications peuvent utiliser une combinaison de fonctionnalités comme le GPS, le Bluetooth et les ultrasons pour atteindre ces objectifs. Les fuites en matière de protection de la vie privée que nous décrivons ici ne sont pas liées à la technologie utilisée.
Ces fuites inhérentes surviennent parce que, de façon implicite, Michel envoie des renseignements sur son statut COVID-19 à ses contacts en fonction de la co-localisation. Bien que de nombreuses applications n’utilisent pas directement les renseignements de localisation, les contacts sont toujours déterminés par la proximité de Michel avec un autre utilisateur, de sorte que l’existence même d’un contact révèle une petite quantité de renseignements de localisation. Un pirate qui dispose de suffisamment de renseignements sur l’historique de localisation de Michel ou qui en a le contrôle peut effectuer une attaque par lien (c.-à-d. relier des renseignements externes avec les messages que Michel envoie) pour obtenir une estimation du statut d’infection de celui-ci. Par ailleurs, l’envoi de notifications aux contacts de Michel peut également révéler des renseignements sur l’historique de localisation de celui-ci lorsque ces notifications le concernent de manière trop précise. En voici un exemple extrême. Imaginons que Michel est le seul individu à avoir reçu un résultat positif au test de dépistage de la COVID-19 dans une région.
Les entreprises qui ont accès à n’importe quelle partie de son historique de localisation peuvent accéder à son statut de diagnostic en plaçant un dispositif de traçage de contacts sur son trajet. Un exemple concret d’une telle entreprise est un hôtel. Dans la version la plus simple de l’attaque, l’hôtel place dans chaque chambre un téléphone exécutant l’application de traçage de contacts. Si Michel séjourne dans la chambre 314 le 1er juin et qu’il envoie plus tard son statut COVID-19, alors le téléphone de la chambre 314 recevra ce message. Puisque l’hôtel connaît le registre des clients, il est trivialement possible de lier ce message à Michel, ce qui constitue une violation de sa vie privée médicale.
Cette version simple de l’attaque peut être déjouée en interdisant à l’hôtel de disposer de 1 000 téléphones ou peut-être en s’assurant que chaque exemplaire de l’application soit associé à une vraie personne ou à un vrai numéro de téléphone. Cependant, cela n’empêche pas que survienne une version plus sophistiquée – par recherche binaire – de l’attaque. Supposons que l’hôtel dispose de 1 000 chambres et de seulement 10 téléphones exécutant l’application (par exemple, 10 de ses employés exécutent l’application). Puis, la nuit, lorsque tous les clients sont au lit, chaque employé passe devant la moitié des portes, n’allumant son téléphone qu’à certaines portes pendant 15 minutes, créant ainsi un code de 10 octets pour chaque chambre. Si les employés 1, 3 et 5 passaient devant la chambre 314, le code serait alors 1010100000. Puisqu’un code de 10 octets offre 210 ou 1024 possibilités, chaque chambre peut obtenir un code unique. Plus tard, si seuls les employés 1, 3 et 5 reçoivent des messages se rapportant au 1er juin, l’hôtel peut conclure que le message provenait de Michel. Cela peut sembler difficile à coordonner d’un point de vue logistique, mais on peut le simuler de manière synthétique à l’aide d’un dispositif piraté dans chaque chambre. Ces appareils n’exécutent plus l’application comme d’habitude, et peuvent donc être considérés comme illégaux, mais comme ils simulent le comportement d’une personne réelle passant devant des chambres selon un schéma étrange, ils ne peuvent pas faire l’objet d’une interdiction sur le plan technologique. Tout ce dont un hôtel a besoin, c’est d’un accès à 10 comptes.
Bien que nous ayons décrit cette attaque dans le contexte d’un hôtel et d’un lieu fixe, ce type d’attaque permet à une personne malveillante, que nous appellerons Mylène, de déterminer quand et où les personnes ont été exposées. Il y a 720 intervalles de temps de 2 minutes dans une journée. Puisque ce nombre est inférieur à 1024, Mylène peut attribuer une étiquette de 10 octets à chacune de ces périodes de 2 minutes – tout comme l’hôtel a attribué une étiquette de 10 octets à chaque chambre – afin de déterminer exactement quand elle a été exposée. Si Mylène sait avec qui elle était à proximité pendant cette période de deux minutes, elle pourrait révéler le statut COVID-19 de Michel.
En pratique, de nombreux protocoles de traçage de contacts proposés n’exigent pas l’utilisation d’identités multiples puisqu’ils ne nécessitent pas de validation de l’utilisateur lorsque celui-ci tente de déterminer son propre statut d’exposition. Par exemple, dans plusieurs des propositions décentralisées, toute la recherche de correspondance est effectuée localement au téléphone. Cette méthode est extrêmement efficace pour protéger la vie privée des utilisateurs non diagnostiqués, car ces derniers ne transmettent aucune information à partir de leur téléphone. Mais cela signifie également qu’il n’existe pas de moyen simple d’empêcher un pirate d’établir une recherche de correspondance locale sur plusieurs téléphones.
Supposons que Mylène veuille obtenir les renseignements de localisation de Michel, plutôt que son statut médical COVID-19. Lorsque Michel envoie son statut COVID-19 à ses contacts, Mylène reçoit une notification pour chacune de ses rencontres avec Michel, car il n’y a aucun moyen pour celui-ci de savoir qu’il a croisé Mylène à plusieurs reprises. Si Mylène reçoit toutes ses notifications de Michel à peu près au même moment, elle pourrait en déduire que toutes ses notifications d’exposition concernaient probablement la même personne, ce qui lui donnerait un relevé partiel des déplacements de Michel. Bien sûr, cela peut être rendu plus difficile si Michel n’envoie pas toutes les notifications en même temps, mais si les notifications d’exposition sont rares (par exemple, Michel est le seul individu porteur du virus dans une ville), Mylène pourrait quand même obtenir des renseignements partiels.
Le danger que représente le traçage de l’historique de localisation est accru si l’adversaire est une grande institution, que nous appellerons Nathalie. Si Nathalie place des téléphones aux quatre coins d’une ville, elle pourrait établir une corrélation entre les historiques de localisation de nombreuses personnes diagnostiquées. Comment Nathalie peut-elle y parvenir même si elle reçoit simultanément des notifications de plusieurs personnes ? C’est qu’elle peut parfois recevoir des messages contigus dans l’espace et dans le temps. Si Michel se trouvait à l’intersection de la rue Principale et de la 1re Avenue, marchant vers l’intersection de la rue Principale et de la 2e Avenue, et que Nathalie a placé des téléphones aux deux intersections pour recevoir les notifications de Michel, elle peut en déduire que Michel a envoyé les deux messages, à moins qu’un bruit temporel suffisant ne soit ajouté au moment d’envoyer des messages sur le risque à ses contacts passés. Ces renseignements sont comparables à ceux que l’on peut obtenir grâce aux enregistrements de télévision en circuit fermé et à la reconnaissance faciale, mais ils suscitent quelques inquiétudes, car les dispositifs de type téléphone peuvent être déployés plus subrepticement que les caméras.
Par ailleurs, bien que nous ayons discuté de certaines des limites inhérentes à la protection de la vie privée dans le cadre du traçage automatique décentralisé de contacts, nous devons garder à l’esprit que le traçage de contacts traditionnel entraîne également des fuites de base en matière de vie privée. L’historique de localisation de Michel est exposé lorsqu’un traceur humain de contacts demande à Michel où il a été. Le traçage manuel de contacts peut également révéler beaucoup plus de renseignements personnels sur les contacts exposés (comme leur nom, leur numéro de téléphone et l’historique des lieux où ils ont croisé Michel). Grâce à une application décentralisée de traçage de contacts, la vie privée d’Hélène est mieux protégée, car elle est la seule à être informée de son exposition. Bien entendu, avec le traçage manuel de contacts, Michel peut censurer le compte rendu de ses allées et venues afin de ne pas mentionner les endroits qu’il préférerait que les autorités ne sachent pas qu’il a fréquentés. Il peut toutefois obtenir une protection similaire de la vie privée s’il éteint simplement l’application ou son téléphone.
En conclusion, le traçage automatique de contacts peut grandement contribuer à la lutte contre la COVID-19. Cependant, même avec le système le mieux conçu, il existe des limites inhérentes à la manière dont il peut protéger la vie privée sur le plan technologique, car la détermination du statut COVID-19 des personnes croisées constitue la raison d’être du traçage de contacts. Un partisan d’une approche maximaliste de la protection de la vie privée considérerait à juste titre ces attaques comme une raison de ne pas utiliser un système automatisé décentralisé de traçage de contacts. Cependant, même un partisan d’une approche pragmatique en la matière pourrait s’inquiéter de la possibilité de révéler des renseignements médicaux sensibles, comme le statut COVID-19, aux entreprises qu’il fréquente et aux étrangers qu’il croise.
Étant donné que les solutions technologiques comportent des limites, atténuer l’incidence de ces attaques relève donc des sphères politiques et législatives. Dans la mesure où les lois actuelles ne sont pas en mesure d’encadrer adéquatement le fonctionnement des applications de traçage automatique, le renforcement des cadres juridiques actuels pourrait contribuer à protéger la vie privée des utilisateurs contre les autorités centrales légitimes – comme les agences de santé publique –, ainsi qu’à dissuader des entreprises privées, comme les hôtels, à recourir à de telles attaques. Une autre mesure d’atténuation possible consisterait à modifier la structure des incitatifs économiques pour les acteurs légitimes. Si une application de santé publique fournit délibérément à un hôtel des renseignements partiels sur un point chaud, correctement désidentifiés et brouillés dans l’espace, cela pourrait s’avérer suffisamment utile pour l’hôtel. Conjuguée à des restrictions légales, cette mesure pourrait permettre de se protéger contre les tentatives de certaines entreprises de ré-identifier des personnes.
Quoi qu’il en soit, nous pensons qu’il est essentiel que les concepteurs et les fournisseurs d’applications de traçage de contacts fassent preuve de transparence quant aux types de garanties qu’ils peuvent offrir sur le plan de la protection de la vie privée. Les auteurs de la présente correspondance sont eux-mêmes impliqués dans la conception d’une application automatisée décentralisée de traçage de contacts [Aldsurf et coll., arXiv, 2020], et cette lettre ne constitue pas une analyse des compromis nécessaires au système réel que nous concevons. Cependant, nous espérons que cette lettre sera utile pour clarifier les compromis de base en matière de protection de la vie privée que les systèmes décentralisés de traçage automatique de contacts demandent aux utilisateurs de faire. Seuls le consentement éclairé et la transparence permettront aux efforts de traçage automatique de contacts de contribuer à la lutte contre la pandémie de COVID-19.
1. Alsdurf, H. et coll., « COVI White Paper ». Prépublication dans arXiv : 2005.08502. 18 mai 2020.
2. Sharma, T. et Bashir, M., « Use of apps in the COVID-19 response and the loss of privacy protection ». Nature Medicine (2020). https://doi.org/10.1038/s41591-020-0928-y
3. Ferretti L., Wymant C., Kendall M., Zhao L., Nurtay A., Abeler-Dörner L., Parker M., Bonsall D. et Fraser C. « Quantifying SARS-CoV-2 transmission suggests epidemic control with digital contact tracing ». Science. 8 mai 2020 ; 368 (6491).
4. Ienca M. et Vayena E. « On the responsible use of digital data to tackle the COVID-19 pandemic ». Nature Medicine. 26 avril 2020 (4) : 463-4.
5. Hinch R., Probert W., Nurtay A., Kendall M., Wymant C., Hall M. et Fraser C. « Effective Configurations of a Digital Contact Tracing App: A report to NHSX. en ». dans : (Avril 2020).
6. Simko L., Calo R., Roesner F. et Kohno T. « COVID-19 Contact Tracing and Privacy: Studying Opinion and Preferences ». Prépublication dans arXiv : 2005.06056. 12 mai 2020.