Rendre l'IA plus juste: Comment Golnoosh Farnadi combat les biais

Photo de la professeure et chercheuse Golnoosh Farnadi

Golnoosh Farnadi est née en Iran et a obtenu son doctorat en Belgique en concevant un modèle permettant de prédire des traits de personnalité à partir d’images, de textes, de relations et d'interactions sur les médias sociaux. Lorsque des entreprises de recrutement ont voulu utiliser son modèle pour embaucher des personnes sur la base de décisions arbitraires d'un programme informatique, elle a réalisé que son travail pouvait être utilisé à mauvais escient et a changé son sujet de recherche pour se concentrer sur les biais algorithmiques. À l'occasion de la Journée internationale des femmes, Mila met en lumière sa quête pour rendre les systèmes d'IA plus équitables et moins biaisés à l'égard des groupes marginalisés.

Aujourd'hui chercheuse à Mila, professeure à HEC Montréal et à l'Université de Montréal et titulaire d'une chaire en IA Canada-CIFAR, elle travaille depuis 2017 sur la fiabilité des systèmes d'apprentissage automatique en étudiant la discrimination algorithmique, l'équité et la protection des données personnelles.

 

Conséquences réelles des biais algorithmiques

 

Des projets comme Gender Shades ont montré que les femmes à la peau foncée étaient plus susceptibles d'être mal identifiées par les logiciels de reconnaissance faciale car les ensembles de données utilisés pour les entraîner contenaient principalement des visages d'hommes blancs.

"Le modèle ne pouvait pas les reconnaître car les modèles se concentrent sur les tendances qu'ils observent le plus souvent et apprennent à partir de ces tendances”, explique Golnoosh Farnadi.

Toutefois, même si les ensembles de données étaient changés de manière à garantir une représentation équitable de la population, des questions subsistent sur la pertinence d'utiliser des outils tels que la reconnaissance faciale, et par qui ils devraient être déployés.

Tout système d'apprentissage automatique contient des erreurs liées à la généralisation (une façon pour les systèmes d'IA d'extrapoler à partir de leurs expériences antérieures pour travailler avec des données inédites) qui peuvent avoir de sérieuses conséquences dans le monde réel car le système ne tient pas compte du fait que la distribution des données, comme le taux de criminalité d’un quartier, peut changer au fil du temps.

Des biais ont été observés dans des outils de recrutement ne montrant pas les emplois techniques ou très bien rémunérés aux femmes, dans des processus d’approbations de prêts refusant les demandes de personnes noires ou dans l'évaluation erronée des risques liés à l'activité criminelle.

"Si la résolution des problèmes de données ou des biais algorithmiques peut améliorer l'équité d'un modèle d'apprentissage automatique, elle peut ne pas atténuer complètement le préjudice potentiel causé par le déploiement du modèle dans un système crucial de prise de décision", avertit Mme Farnadi. 

"L'IA et les modèles d'apprentissage automatique ne devraient être utilisés qu'en tant qu'assistants ou observateurs mais ne devraient pas être utilisés comme outils de prise de décision sans supervision".

Les lois visant à garantir l'équité, par exemple pour lutter contre la discrimination liée à la couleur de peau, au genre ou à l'orientation sexuelle, ne se traduisent pas automatiquement en formulations mathématiques au sein des systèmes d'IA, et Golnoosh Farnadi estime que les efforts visant à lutter contre les biais algorithmiques devraient se concentrer sur les domaines où ces lois existent déjà.

 

L’origine des biais

 

Les biais peuvent survenir tout au long du processus de développement des systèmes d'IA: dans les données utilisées pour entraîner le modèle, dans le modèle lui-même et dans les résultats du modèle.

Ils peuvent venir d'ensembles de données déséquilibrés ou historiquement discriminatoires. Par exemple, les femmes et les personnes noires ont un taux de demande et d'approbation de prêts bancaires historiquement plus faible, ce qui peut avoir un impact sur les prédictions des modèles basés sur ces données et ainsi renforcer les discriminations.

"Entraîner le modèle avec ces données induit des biais, et les modèles qui en résultent pourraient même amplifier ces biais", selon Mme Farnadi.

Les résultats peuvent être biaisés lorsque de tels systèmes d'IA sont utilisés pour prendre des décisions sans comprendre pleinement le fonctionnement du modèle, en faisant aveuglément confiance à celui-ci et en faisant des choix sur la seule base de ses conclusions.

"La simple correction d'un biais dans le modèle ne garantit pas que la discrimination dans le processus de prise de décision sera également résolue. C'est pourquoi nous devons faire preuve de prudence dans notre utilisation des modèles d'apprentissage automatique".

 

S'attaquer aux biais

 

La définition de l'équité est complexe en raison des différentes perspectives à prendre en compte, et combattre les biais dans les systèmes d'IA peut s'avérer difficile car les groupes ne sont souvent pas homogènes (par exemple hommes et femmes), et les individus au sein de ces groupes ont des profils différents (par exemple hommes noirs et femmes noires).

"Au niveau du groupe, on considère que toutes les femmes sont semblables et on essaie d'égaliser leurs chances ou de corriger les erreurs du système pour que le groupe soit égal à un groupe d'hommes. Mais lorsque l'on descend au niveau individuel, il faut définir la mesure de la similarité entre deux individus, et cette mesure dépend alors fortement du contexte. La similarité de qualifications pour un emploi sera très différente de la similarité de deux patients dans le domaine de la santé.”

Corriger les données d’un domaine spécifique peut toutefois être impossible, et les disparités historiques signifient que certaines données n'existent tout simplement pas. Golnoosh Farnadi développe donc de nouveaux concepts d'algorithmes qui tiennent compte de l'équité, de la robustesse et de la protection des données personnelles. Cette démarche est d'autant plus opportune que les modèles modernes, de plus en plus puissants, nécessitent des données sensibles pour générer des prédictions précises.

Elle s'intéresse également de plus en plus à l'éthique des modèles d'IA générative tels que ChatGPT.

"En tant qu'humains, nous aimons faire confiance, et le problème de l'IA et des modèles d'apprentissage automatique est que nous leur faisons confiance, mais nous ne devrions pas, car ils ne donnent aucune source et vous ne pouvez pas savoir si vous faites l'objet d'une discrimination. Les informations reçues diffèrent d’une personne à l’autre, et nous courons le risque de vivre dans des bulles créées par l'IA à mesure que l'utilisation de ces modèles augmente."

Golnoosh Farnadi dénonce le fait que la plupart des données utilisées pour entraîner les modèles modernes proviennent d'Amérique du Nord, ce qui signifie que d'autres régions du monde risquent d'être sous-représentées.

"Nous devons renverser la tendance qui consiste à utiliser des modèles de plus en plus gros, car cela crée une structure monopolistique qui crée davantage de biais car elle ne fonctionne que pour une frange spécifique de la population", conclut Golnoosh Farnadi.

L'un des moyens d'y remédier serait de travailler avec des données locales d'une manière plus démocratique et moins centralisée, ce qui contribuerait également à réduire les biais. 

"Cela permettrait aussi aux petits acteurs ayant moins d’accès aux ressources d'avoir une chance de contribuer.”