L’IA et les biais algorithmiques

L'IA n'est pas neutre. Ou du moins les algorithmes et les données qui les nourrissent ne le sont pas, car ils sont imprégnés des mêmes biais que ceux qui les manipulent.

L’IA et les biais algorithmiques

Les systèmes utilisant l’intelligence artificielle auraient ceci d’avantageux qu’ils seraient purement objectifs. Pas d’émotions, pas de sentiments, pas de préférences, pas d’opinions : seulement des algorithmes et des données. En théorie, oui. En pratique, c’est faux : l’IA n’est pas neutre.

Nous avons vu dans un article précédent qu’entraîner un réseau de neurones nécessitait un training dataset, c’est-à-dire un échantillon d’exemples qui permettent à l’algorithme d’ajuster ses paramètres, en particulier le poids de chaque connexion entre neurones. Or, le training set est un échantillon restreint de données, ce qui peut en faire une source de biais.

Entraîner, mais surtout tester et valider les modèles d’IA

En supervised learning, il y a deux risques. Le premier est le sous-apprentissage (underfitting), c’est-à-dire lorsque le modèle n’est pas suffisamment entraîné à “coller” au training set. Le modèle se généralisera mal car il sera insuffisamment entraîné. Le deuxième est le sur-apprentissage (overfitting), c’est-à-dire lorsque l’algorithme est entraîné à “coller” parfaitement au training set. Le modèle se généralisera mal également car le training set deviendra un biais en lui-même.

Afin de s’assurer de l’efficacité du modèle, il faut donc évaluer et corriger ce dernier. Pour cela, on utilise deux autres ensembles de données, indépendantes du training set. La première est le validation set. Le validation set est utilisé pour affiner les hyperparamètres du modèle, c’est-à-dire les paramètres fixés avant la phase d’apprentissage et non-modifiés par l’algorithme lors de l’apprentissage. Le validation set est initialement non-biaisé, mais se biaise au fur et à mesure qu’il est utilisé et intégré dans le modèle. Le deuxième est le test set, c’est-à-dire la base de données utilisée pour évaluer de façon non-biaisée le modèle final.

Un problème inhérent aux développement des algorithmes et aux données utilisées

Aux bases de l’IA, il y a des algorithmes. Or les algorithmes sont entraînés par les humains qui les nourrissent des données qu’ils ont choisies. “Un algorithme n’est en réalité qu’une opinion intégrée aux programmes”, selon la mathématicienne Cathy O’Neil. De la même façon que nous sommes influencés par des biais conscients ou inconscients qui proviennent par exemple de notre environnement socio-culturel, de notre éducation ou de notre âge, les algorithmes ne sont pas neutres.

Un biais algorithmique se produit lorsque les données utilisées pour entraîner un système d’apprentissage automatique reflètent les valeurs implicites des humains impliqués dans la collecte, la sélection, ou l’utilisation de ces données.

Or cela devient grave à partir du moment où les biais reflétés sont, par exemple, des biais racistes, sexistes, ou homophobes. Une étude a montré que les logiciels utilisés par la justice américaine pour prédire la récidive surestime le risque pour les populations afro-américaines et le sous-estime pour les populations blanches. Autre exemple : en 2015, Amazon a essayé un processus de recrutement via un algorithme entraîné sur des centaines de milliers de CV reçus par l’entreprise depuis 10 ans. Sauf que l’algorithme sélectionnait majoritairement des hommes car les cadres recrutés dans le passé étaient en très grande majorité des hommes. L’algorithme a donc “appris” à ne laisser aucune chance aux femmes.

Robot qui regarde une tablette avec son reflet
Photo by Brett Jordan on Unsplash

La prise de décision d’un algorithme peut elle-même renforcer le biais : par exemple, si l’estimation d’un risque de crédit est élevé, le crédit sera concédé mais à un taux plus élevé, ce qui renforce le défaut de paiement.  Cela crée ainsi un problème de sur-représentation de certaines populations dans les jeux de données.

Les biais algorithmiques sont représentatifs des biais de la société. D’abord, dès sa conception, l’algorithme intègre les biais cognitifs du développeur. Ensuite, les données sélectionnées pour entraîner, valider et tester l’algorithme peuvent rendre ce dernier discriminatoire. Développer l’IA de façon éthique, c’est donc en partie s’assurer que celle-ci ne sera pas biaisée.

Comment lutter contre les biais algorithmiques ?

Pour éviter les biais algorithmique, il y a heureusement plusieurs solutions.

Dans le cas des algorithmiques qui ont déjà été déployés, il est possible de les auditer pour détecter un éventuel biais et de les rééduquer s’ils se révèlent biaisés.

Dans le cas des algorithmes en développement, plusieurs choses peuvent être faites. En premier lieu, les équipes de développement doivent être formées à éviter les biais algorithmiques. Ensuite, les bases de données choisie pour entraîner, valider et tester l’algorithme doivent être inclusives. Enfin, la diversité des équipes de développement et la diversité au sein de l’équipe de développement permettent d’éviter que l’algorithme ne soit développé de façon biaisée. La transparence des procédés de construction de l’algorithme ainsi que la sensibilisation du grand public à ce problème sont aussi importants pour établir un rapport de confiance à l’IA en toute connaissance de cause.

Le rapport de l’Institut Montaigne Algorithmes : contrôle des biais S.V.P., publié en mars 2020, suggère en outre une approche par le changement de la culture de la donnée. Tester la présence de biais dans les algorithmes nécessite des données relatives aux 25 critères reconnus de discrimination qui, en France, sont très difficiles à collecter, selon le rapport. “Abandonner l’approche d’équité par ignorance” pour “adopter une stratégie d’équité active”, voilà ce que propose le rapport : en collectant de façon strictement encadrée des données reconnues comme sensibles, l’équité des algorithmes pourra être vérifiée bien plus efficacement. Le rapport suggère également la mise à disposition pour les entreprises ou pour un acteur tiers de bases de données de test publiques, qui permettraient également d’évaluer les biais, comme l’a fait le National Institute of Standards and Technology aux Etats-Unis.

La discrimination algorithmique est un problème de taille dans un contexte ou l’IA intervient toujours plus dans de nombreux aspects de nos vie. Développer l’IA de façon éthique, voilà un enjeu majeur des années à venir.

Pauline Sicsik


Sources