Éthique numérique, des datas sous serment - Émission La méthode scientifique

Hippocrate

Titre : Éthique numérique, des datas sous serment
Intervenants : Frédéric Bardolle - Nozha Boujemaa - Soline Ledésert - Jérémie Poiroux - Céline Loozen - Nicolas Martin
Lieu : La méthode scientifique - France Culture
Date : 10 octobre 2018
Durée : 58 min 56
Écouter ou télécharger le podcast
Page de présentation de l'émission
Licence de la transcription : Verbatim
Illustration : Hippocrate - Image conventionnelle de « portrait » romain en buste (gravure du XIXe siècle) - Domaine public
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Logo France Culture

Description

Et si les développeurs et data scientists prêtaient serment, comme les médecins, pour une utilisation des données plus éthique ?

Transcription

[Début du générique]

Nicolas Martin : Dans le monde numérique qui est le nôtre, il est assez simple de penser qu'un algorithme n'est qu'un programme, que foncièrement un programme est par essence neutre. Par exemple, lorsque je regarde une bande-annonce cinéma sur YouTube, eh bien à la fin YouTube m'en propose une autre et ainsi de suite et les vaches sont finalement assez bien gardées ! Malheureusement, ça n'est pas toujours le cas et les conséquences des algorithmes auxquels nous sommes quotidiennement soumis sont tout sauf neutres. Or, nous n'avons aucun contrôle sur ces algorithmes et sur les gens qui les programment. D'où cette question : est-il temps d'imposer une éthique du numérique ?

[Suite du générique]

Nicolas Martin : « Éthique numérique, des datas sous serment », c'est le problème auquel nous allons nous atteler dans l'heure qui vient. Bienvenue dans La méthode scientifique.

[Fin du générique]

Nicolas Martin : Et pour décortiquer ce problème aux embranchements et aux conséquences fort complexes, au moins aussi complexes que celles d'un algorithme, nous avons donc le plaisir de recevoir aujourd'hui Nozha Boujemaa. Bonjour.

Nozha Boujemaa : Bonjour.

Nicolas Martin : Vous êtes directrice de recherche INRIA, directrice de l'institut DATAIA1, Institut de convergence français spécialisé en sciences des données, intelligence artificielle et société. Et bonjour Frédéric Bardolle.

Frédéric Bardolle : Bonjour.

Nicolas Martin : Vous êtes membre de l'association Data For Good2 donc d'AlgoTransparency3, une plateforme que vous avez développée et dont nous reparlerons tout à l'heure.
Vous pouvez nous suivre comme chaque jour en direct sur les ondes de France Culture, en différé en podcast via votre application préférée et toujours, à quelque moment que vous nous écoutiez, en complément via le fil Twitter de l'émission sur lequel nous allons poster un certain nombre de compléments d'information, d'articles, de graphiques qui vont venir éclairer ce qui va être dit au cours de cette heure et à ce micro.
Pour commencer, eh bien il y a une voix, une voix singulière qui s'est élevée pour réclamer une éthique numérique et dénoncer l'absence de transparence de la plupart des plateformes et des méthodes de programmation. C'est celle de Cathy O'Neil, elle est Américain, mathématicienne. Je vous propose d'écouter un extrait de sa conférence TEDx qui date de l'an dernier.

Voix off, traductrice de Cathy O'Neil : Les algorithmes sont des opinions intégrées dans du code. C'est très différent de ce que les gens pensent des algorithmes. Ils pensent que les algorithmes sont objectifs, vrais et scientifiques. C'est une astuce marketing. C'en est une autre de vous intimider avec des algorithmes, de vous faire croire et craindre les algorithmes car vous croyez et craignez les mathématiques. Tout peut mal tourner quand on a une foi aveugle dans le big data. Nous devons réclamer des comptes à nos souverains algorithmiques. L'ère de la confiance absolue dans le big data doit prendre fin.

Nicolas Martin : Voilà, un extrait de ce TEDx de Cathy O'Neil : « L'ère de la confiance absolue dans le big data doit prendre fin ». Ça veut dire qu'il y a eu une ère de la confiance absolue dans le big data, Nozha Boujemaa?

Nozha Boujemaa : En fait, j'ai l'impression qu'on a survendu les big data et l'IA en disant que c'est objectif parce que c'est piloté par les données, c'est objectif parce que c'est algorithmique, parce que il y a de la modélisation donc c'est forcément objectif et c'est une baguette magique pour résoudre tout. Il y a eu des benchmarks de performance montrant que des algorithmes d'apprentissage étaient capables d'être plus performants en reconnaissance visuelle que l’œil humain et, à partir de là, il y a eu, je dirais entre guillemets, « des envolées lyriques » sur les capacités de l'IA et des big data pour tout faire, tout résoudre, donc je crois que, justement, il faut démystifier et surtout, quelque part, revenir un peu sur terre. En fait, toute technologie a ses capacités, ses promesses et ses réalités, mais a également ses défauts et ses limites. Ce dont on a beaucoup moins parlé ce sont les limites et je crois qu'il ne faut être ni techno-sceptique ni, au contraire, survendre l'IA, il faut avoir le juste équilibre et je crois que le efforts que nous sommes entrain de déployer à la fois dans le cadre de l'Institut DATAIA mais aussi dans d'autres sphères internationales, européennes et aussi dans le cadre de l'OCDE, c'est avoir la juste mesure. Donc je dirais ne pas faire confiance totale. Là encore la question n'est pas la technologie très performante, certainement, ce sont les gens qui l'utilisent et qui la déploient ; ce sont toujours les personnes qui sont derrière en fait.

Nicolas Martin : Qui sont devant ou derrière, d'ailleurs, dans un sens ou dans l'autre.

Nozha Boujemaa :Absolument !

Nicolas Martin : On entendait, c'était intéressant, cet extrait du TEDx de Cathy O'Neil parce qu'on entend tout de même quelque chose qui me surprend un peu. C'est assez récent, ça date de l'année dernière, les travaux de Cathy O'Neil ont deux-trois ans, on est dans un champ qui, on va le dire tout le long de cette heure, est un champ très récent, très récent à l'international et encore plus récent peut-être en France. On entend que, finalement, le grand public aurait une sorte de confiance un peu aveugle en disant « les algorithmes, l'intelligence artificielle, ce qui m'est proposé, ces outils auxquels on m'a donné accès, finalement je peux leur faire une sorte de confiance aveugle ». J'ai plutôt le sentiment, et je parle à titre tout à fait personnel, que la défiance est arrivée très vite. Est-ce que il y a eu une sorte de phase de confiance aveugle, vous pensez, Frédéric Bardolle ?

Frédéric Bardolle : Je ne pense pas. Il y a eu une espèce de période de foi, les gens avaient foi dans les algorithmes et ils l'ont encore en partie. Quand on a lancé le projet AlgoTransparency, l'idée c'était de montrer, justement, quelles étaient les recommandations faites par YouTube et on voulait montrer, justement, que ces recommandations n'étaient pas neutres mais étaient orientées vers certaines vidéos, vers certains concepts. On en reparlera un peu plus tard.

Nicolas Martin : On en reparlera tout à l'heure, oui.

Frédéric Bardolle : Quand on a commencé à parler de nos travaux, à les publier sur des plates-formes comme Facebook ou Twitter, les gens, les utilisateurs de YouTube, nous ont répondu : « Mais en fait, vous vous êtes trompés, l'algorithme est neutre. S'il donne cette valeur-là, c'est parce qu'il a raison, c'est parce qu'il est programmé, il est neutre. Donc vous inventez une espèce de biais qui n'existe pas » et ça on l'a vu, concrètement on a vu des gens nous dire ça.

Nicolas Martin : Ça veut dire qu'il y a donc, effectivement, une ère de la confiance. Est-ce qu'aujourd'hui il faut, comme le dit Cathy O'Neil, « passer à l'inverse, à la défiance ? » Elle a cette phrase qui est très forte, au début elle dit : « L'algorithme c'est une opinion cachée dans du code. » Est-ce que tout algorithme est nécessairement une opinion, Nozha Boujemaa?

Nozha Boujemaa : Je confirme. Les algorithmes sont des opinions ; mon expression c'est « des opinions encapsulées dans du code à travers les données d'apprentissage, à travers les données de paramétrage », donc il y a toujours une opinion de celui qui a conçu ou en tout cas du prescripteur pour le développement de ces algorithmes.
Maintenant, ce qui est important, je dirais que ce n'est pas tant l'éthique, je plaiderais davantage pour une IA de confiance, c'est différent, parce que ça inclut : en fait, l'éthique est une partie de l'IA de confiance dans la mesure où je préfère parler de l'IA responsable. On peut se poser la question de l'IA responsable : responsable dans quel référentiel et par rapport à quel référentiel ? En fait on en a deux : conforme aux règles juridiques, donc il y a la question de la responsabilité juridique, mais aussi conforme aux valeurs éthiques, c'est-à-dire que la responsabilité inclut deux choses et, effectivement, c'est important d'intégrer ces deux dimensions dans l'IA responsable. Mais encore, à l'IA de confiance je rajouterais l'IA robuste qui n'a nullement l'intention ni de nuire, ni d'occasionner je ne sais quel dégât sur les personnes et les sociétés, mais des fois on peut avoir des résultats différents, donc on peut croire à une discrimination qui n'en est pas une parce que celui qui a conçu l'algorithme n'a nullement l'intention de générer une discrimination, mais, tout simplement, parce que son algorithme n'est pas reproductible : il est vulnérable, il subit des biais des données ou des algorithmes et, au final, c'est en fait un manque de maîtrise technologique dans le déploiement de ces technos.

Nicolas Martin : On est tout de même arrivé, aujourd'hui, dans une ère de la mise en garde on va dire, c'est-à-dire qu'au niveau institutionnel avec le déploiement du RGPD4 mais même, plus généralement dans le discours public, on entend souvent des gens alerter contre les biais dans les moteurs de recherche, les biais dans les réseaux sociaux, pour parler des biais peut-être les plus apparents, alors évidemment également sur YouTube. Est-ce que vous avez le sentiment qu'on n'est peut-être plus à l'heure de la confiance, pas encore tout à fait à l'heure du doute mais, en tout cas, peut-être dans une sorte d'ère de l'indifférence finalement. L'utilisateur final de l'interface, il s'en moque un peu.

Frédéric Bardolle : Finalement les utilisateurs sont contents parce qu'ils ont ce qu'ils veulent. En fait, l'algorithme n'est vraiment conçu que pour ça, pour leur donner ce qu'ils veulent. Le problème c'est que ce qu'ils veulent n'est pas forcément ce qui est le mieux pour eux. On a une métaphore un petit peu là-dessus c'est : imaginons que ce soit un algorithme qui fasse le menu à la cantine de nos enfants, un algorithme d'apprentissage automatique qui va s'apercevoir que les enfants aiment bien manger sucré-salé et que ça leur permet de finir plus rapidement leur assiette. Au final, si on entraîne cet algorithme avec des données de cantine d'enfants, il va finir par ne donner que les pires aliments qui existent, que les aliments les plus sucrés, les plus salés, enfin vraiment les pires.

Nicolas Martin : Des frites au ketchup !

Frédéric Bardolle : C'est ça, exactement. [Rires]. Et c'est ça le problème. Souvent on entend des gens nous dire : « Finalement, ces algorithmes ne font que donner aux gens ce qu'ils veulent ». Mais ils font plus que ça, c'est-à-dire qu'ils vont nous fournir des choses qui ne sont pas les côtés les plus reluisants de l'humanité, tout ça pour qu'on passe du temps, en fait. Ces algorithmes ont tous quelque chose à maximiser et ce que les plates-formes essaient de maximiser c'est le temps passé, c'est l'attention qu'on consacre à leurs plates-formes. Ce n'est pas le bonheur de l'utilisateur, ce n'est pas son bien-être ; c'est cette attention. Et pour maximiser cette attention, il faut des contenus addictifs et c'est ça le danger.

Nicolas Martin : Sur ce sujet-là Nozha Boujemaa ?

Nozha Boujemaa : Oui. Là c'est le cas d'usage, YouTube, effectivement, qui maximise le temps de passage devant l'écran.

Nicolas Martin : YouTube, mais c'est aussi vrai pour Facebook. Non ? Pas tout à fait de la même façon ?

Nohza Boujemaa : En fait pour les modèles d'affaires, pour les business models qui tendent à maximiser le temps de présence pour vendre plus de publicité, en fait pour tous les services gratuits qui sont basés sur des modèles de publicité c'est le cas. Maintenant, je dirais que ça dépend énormément. C'est-à-dire que dans certains moteurs de recommandation, ce n'est pas forcément pour vous garder captif, ça peut aussi vous proposer, vous faire des recommandations pour déstocker. D'accord ? C'est pour ça que je disais que ça dépend des cas d'usage : on peut effectivement vous recommander des biens ou des services qui ne sont pas forcément les plus personnalisés en fonction de votre parcours sur une certaine plate-forme, mais pour les intérêts, c'est pour ça qu'on revient au point : ce sont des opinions capsulées qui maximisent le profit de ceux qui mettent, en fait, en service ces services numériques. Et au final, les services numériques maximisent l'intérêt de ceux qui les produisent. Voilà !

Nicolas Martin : Il y a quelque chose, un point de vue que je veux vous soumettre et que j'aime assez bien parce que je trouve qu'il est assez représentatif, effectivement, pour répondre à cet argument de « finalement la publicité ciblée, ça m'arrange plutôt puisqu'on me propose plutôt des choses que j'ai envie d'acheter que d'autres choses qui ne m'intéressent pas. » C'est Antoinette Rouvroy qui est venue plusieurs fois à ce micro et qui disait : « Le problème, c'est qu'à force de vous soumettre de la publicité ciblée, des choix ciblés, eh bien ça va transformer une décision d'achat ; je me connecte sur Internet parce que, à un moment donné, je décide d'aller faire des courses pour acheter quelque chose dont j'ai besoin, en une pulsion d'achat. C'est-à-dire que d'un seul coup ça détruit la décision et ça rend la décision strictement pulsionnelle. » Et là, effectivement, j'ai l'impression qu'avec cet exemple, on touche du doigt un effet qui est nettement un effet pervers. Frédéric Bardolle.

Frédéric Bardolle : Oui et même pour aller plus loin, un des problèmes sur les algorithmes, en particulier les algorithmes d'apprentissage automatique puisque ce sont ceux dont on parle finalement — il y a beaucoup d'algorithmes, le calcul de Pi utilise un algorithme mais là on parle surtout des algorithmes d'apprentissage automatique, machine learning — le problème c'est que, par essence, ils sont conservateurs. C'est-à-dire qu'ils ont été entraînés avec des données qui ont été mesurées sur des gens, sur vous, sur peut-être d'autres gens, mais en fait ils reflètent, finalement, seulement le passé, seulement la société telle qu'elle a pu exister, seulement votre comportement passé, et finalement il vous dit : « Vous êtes tout le temps la même personne, tout le temps pareil » et on va vous reproposer toujours la même chose.
Un exemple concret par rapport à ça : pour faire de la traduction automatique, Google Traduction et d'autres utilisent, par exemple, des textes qui sont à la fois en français et en anglais et ils essaient de les calquer. Ce qui se passe c'est que, à cause de ça, quand on essaie de traduire des termes qui n'ont pas de genre en anglais, par exemple a nurse ou a doctor, donc pour parler d'infirmier/infirmière ou docteur mais docteur au féminin, eh bien on a toujours a doctor, c'est un docteur au masculin, et a nurse, c'est une infirmière au féminin. Et ça, en fait, ça n'a pas de sens linguistique, c'est juste parce que l'algorithme a vu des milliers d'exemples de cette catégorie-là et a dit « c'est ça la réalité ». Donc, dans un sens, ils sont conservateurs.

Nozha Boujemaa : Ça c'est le manque de représentativité des données d'apprentissage qui fait partie des biais. J'aimerais bien qu'on fasse la différence entre les biais techniques…

Frédéric Bardolle : Bien sûr.

Nicolas Martin : Entre les biais technique et ?

Nozha Boujemaa : En fait, il y a le côté intention de ne pas bien faire les choses ou de ne pas forcément faire les choses dans l'intérêt du consommateur du service, mais dans l'intérêt du producteur du service. Et c'est de bonne guerre ! On ne peut pas reprocher à celui qui produit un service de ne pas servir ses intérêts. Par contre, c'est à ceux qui consomment les services d'une manière générale, qu'ils soient citoyens, qu'ils soient professionnels — donc là je ne considère pas seulement le B2C mais le B2B aussi —, que ça soit les gouvernements quand ils sont clients de services numériques, eh bien de se prémunir des outils qui leur permettent justement de ne pas être je dirais, je ne vais pas utiliser le mot « proie facile ».

Nicolas Martin : Mais à la merci en tout cas.

Nozha Boujemaa : Oui à la merci. En tout cas de savoir comment ils vont être calculés. En fait il y a un principe essentiel qui est remis en cause dans ces choses-là, c'est quand même le libre arbitre. D'accord ?

Nicolas Martin : C'est ce que j'évoquais quand on passe de la décision d'achat à la pulsion. On renonce, d'une certaine façon, à une forme de libre arbitre.

Nozha Boujemaa : Il y a le côté pulsion mais il y a aussi le côté, je dirais, peut-être même une consommation dans l'« inconscience heureuse », entre guillemets. C'est-à-dire qu'on me propose, ça me va, j'y vais, je clique, enfin voilà ! Il y a quand même un problème parce que, quelquefois, on ne se pose même plus la question, en fait. Et c'est ça la difficulté, outre les bulles filtrantes qu'on a évoquées tout à l'heure sans les nommer, mais c'est aussi le libre arbitre et la liberté humaine.
Pour rebondir aussi sur le fait que ces algorithmes apprennent du passé, c'est-à-dire ça enferme, le prédictif enferme dans un déterminisme qui n'a pas lieu d'être parce que la capacité première de l'humain, quand-même, c'est d'être libre et d'être imprévisible. D'accord ? Et ça, les algorithmes d'aujourd'hui… C'est pour ça que le développement du cœur d'IA n'est pas fini, l'IA faible aujourd'hui ne sait faire que ça.

[Virgule musicale]

Voix off : La méthode scientifique, Nicolas Martin.

Nicolas Martin : Il est 16 heures 15 sur France Culture. Nous parlons d'éthique numérique tout au long de cette heure et de savoir à quel moment il faut justement remettre une notion d'éthique dans la science des données, dans le data scientism si on doit le dire en anglais. Nous en parlons avec Nozha Boujemaa et Frédéric Bardolle tout au long de cette heure.
On a un peu parlé de ces effets pervers, de ces biais des algorithmes, qu'ils soient effectivement techniques, volontaires ou intentionnels. J'aimerais peut-être qu'on prenne et qu'on parte d'un exemple très concret que vous avons presque tous sous les yeux de façon régulière c'est l'exemple de YouTube. Finalement, comme je le disais dans la présentation de cette émission, quoi de plus inoffensif, après tout, que de laisser le site décider de quelle vidéo vous allez regarder après avoir vu, je ne sais pas, un clip, une bande-annonce vidéo, une conférence, peu importe. Vous savez il y a une fonction de lecture automatique, donc tout de suite après va arriver une deuxième vidéo que vous n'aurez pas choisie. Tout cela a finalement l'air très innocent mais, évidemment, ça l'est beaucoup moins que ce que l'on imagine. Bonjour Céline Loozen !

Céline Loozen : Bonjour Nicolas, bonjour à tous !

Nicolas Martin : Donc si on me propose une vidéo de requins après une vidéo de chatons extrêmement mignons ?

Céline Loozen : Vous pouvez en conclure quelque chose de très mauvais au niveau de votre psychologie, peut-être !

[Rires]

Nicolas Martin : Ou, en tout cas, de mes pratiques internet. Plus sérieusement, vous êtes justement allée dans l'association de Frédéric Bardolle, chez Data For Good, pour comprendre comment ils travaillent sur cette question de l'algorithme de YouTube.

Céline Loozen : Oui. L'algorithme de YouTube fonctionne par suggestions pour amener à regarder plus de vidéos, passer plus de temps sur la plate-forme. Le problème, c'est qu'il n'est pas public, entre autres pour des raisons de secret industriel. Alors c'est un problème car on reproche à YouTube son manque de neutralité, l'incitation à consulter des vidéos aux sujets clivants et aussi de nous enfermer dans des bulles filtrantes selon nos consommations, un peu comme sur Facebook. Le projet AlgoTransparency tente d'étudier ce fonctionnement opaque et ils ont publié une charte pour inciter les ingénieurs de YouTube à adhérer à plus d'éthique. En l'occurrence, pour le cas de YouTube l'algorithme est secret et je suis allée voir Soline Ledésert qui est cofondatrice de AlgoTransparency et elle a aussi contribué à la rédaction du Serment d'Hippocrate pour Data Scientist5.

[Musique de fond]

Soline Ledésert : La majeure partie des vidéos regardées sur YouTube vient de recommandations. C'est-à-dire qu'une fois qu'on a tapé une requête, en fait on va suivre les recommandations de la colonne de droite. Parce qu'il faut savoir que les vidéos qui sont suggérées par YouTube sont suggérées par un algorithme et on ne connaît pas cet algorithme parce que ça relève du secret industriel. Et ce qu'on a fait, du coup, c'est qu'on a vu les vidéos, le résultat de ces algorithmes, les vidéos qui étaient suggérées, et on a essayé de poser des questions publiquement sur pourquoi certaines étaient plus suggérées que d'autres.

Céline Loozen : Est-ce que vous pourriez présenter un peu le concept du site ?

Soline Ledésert : Il suffit d'aller sur algotransparency.org donc là vous voyez qu'on a créé différentes rubriques : Kids, World Leaders, Science, Mass Shootings, British Election. Par exemple si on va sur Science6, on voit le top 100 des vidéos les plus recommandées par YouTube sur la requête « est-ce que la terre est plate ou ronde ? ». Il y a une vidéo qui est recommandée 9,7 fois plus que la moyenne des vidéos recommandées par YouTube sur la question le 1er août 2018, qui est A Stranger's Guide to Flat Earth | 21 Questions and Answers (Proving The Earth Is Flat). Il faudrait quand même la regarder, mais on a visiblement une vidéo qui prouverait que la terre est plate !

Céline Loozen : Comment vous fonctionnez pour pouvoir donner ces chiffres et mettre ces classements ?

Soline Ledésert : En fait, on a créé un utilisateur. C'est comme si c'était un utilisateur qui venait de se créer un compte qu'on a créé sous forme de robot, c'est un programme, et qui va faire des requêtes sur YouTube et regarder des vidéos. Il regarde toujours la première vidéo qui sort de la recherche et ensuite, on lançait les six premières vidéos qui sont suggérées sur la colonne de droite. En fait, à chaque fois on jouait chacune de ces six vidéos et on récoltait les vidéos suivantes et ainsi de suite. Du coup on se retrouvait avec, on va dire, entre 1000 et 2000 vidéos suggérées sur une requête et on regardait dans ces vidéos le nombre de fois où une vidéo était plus recommandée que la moyenne. Du coup on se disait « pour quelqu'un qui arrive sur YouTube et qui fait une recherche, par exemple sur François Fillon, on va pouvoir voir que l'algorithme de YouTube va rediriger de vidéo en vidéo, va tendanciellement rediriger la personne qui a fait une requête sur François Fillon vers, par exemple, Mélenchon ou un autre candidat. Donc là, nous on a eu une démarche assez pragmatique de se dire « OK ! Quels contenus sont les plus suggérés par ces algorithmes ? » Une fois que ça c'est prouvé, par exemple sur notre site, l'idée c'est d'aller plus loin et de lancer un débat public, c'est-à-dire est-ce qu'on veut des entreprises qui servent ceci ? Et on essaie de rendre visible le fait qu'il y a des différences d'attributs, comme ça, sur les contenus.

Céline Loozen : Les ingénieurs de YouTube connaissent l'existence de vos activités ? Comment ils réagissent, comment ils se positionnent ?

Soline Ledésert : Disons qu'il y a un peu ceux qui vont essayer d'améliorer le système au sein de ce cadre-là, donc essayer de faire des algorithmes qui seront plus égalitaires, plus neutres, réinjecter de la diversité dans les contenus afin d'éviter la personnalisation, etc.
Il y a un autre projet qui est né de ce projet qu'on a appelé le Serment d'Hippocrate pour Data Scientist. C'est-à-dire que pendant qu'on a construit AlgoTransparency, parmi les solutions auxquelles on pensait il y avait effectivement la régulation et on s'est dit « il y aussi interpeller la conscience de tous ces ingénieurs qui travaillent sur du machine learning et des algorithmes. Sur le même modèle que le serment d'Hippocrate des professionnels de la santé, on pourrait créer un serment d'Hippocrate des data scientists. » On a fait une petite recherche, il y en avait déjà qui circulaient et, pour se différencier de ceux qui existaient déjà, on a vraiment créé un serment d'Hippocrate qui aidait les data scientists au quotidien, dans leur pratique. On a découpé le travail en grandes étapes, de la participation d'un projet à l'analyse de résultats en passant par la collecte de données et l'application de modèles algorithmiques. On s'est dit « quels sont, à chaque étape, les dilemmes éthiques auxquels un data scientist peut être confronté et ensuite comment il peut résoudre ces problèmes ? » Donc on a fait un questionnaire en ligne, on a récolté des expériences diverses et ensuite on a travaillé pendant trois mois en atelier à rédiger collaborativement un serment d'Hippocrate. Il est disponible sur hippocrate.tech.
On a posé cinq valeurs :

  • l'intégrité scientifique et la rigueur,
  • la transparence,
  • l'équité,
  • le respect et la responsabilité
  • l'indépendance.

Ensuite, on a formulé des phrases sous la forme de « Je m'engage à faire ceci ou cela », donc ça concerne effectivement le respect de la vie privée. À chaque fois, à chaque ligne, on rappelle aussi le cadre légal européen du Règlement général pour la protection des données. Le data scientist signataire s'engage à déterminer le meilleur compromis entre la performance et l'interprétabilité. Pourquoi l'interprétabilité c'est important ? Parce que par exemple si vous faites tourner un algorithme sur la question de votre allocation familiale et si l'algorithme vous dit « non, vous n'y avez pas droit » et que la personne qui a fait tourner l'algorithme vous dit « eh bien écoutez, je ne peux pas vous l'expliquer mais c'est comme ça ! », ça peut poser des problèmes. Donc on a fait ce genre de recherche.

Céline Loozen : Quelle est la valeur juridique de cette charte ? Comment pourrait-on l'appliquer réellement ?

Soline Ledésert : Nous on est vraiment dans une démarche plutôt citoyenne. À chaque fois on l'a formulée de façon à ce que le data scientist veille à ce que les choses se fassent. Mais un data scientist peut travailler dans une administration, dans une entreprise, au sein d'un labo de recherche et il n'est jamais seul décisionnaire sur vraiment l'ensemble du projet donc on essaye. On a pris cette approche dans le cadre de ce projet vers la responsabilité personnelle. Après, on a aussi rappelé la loi donc là c'est vrai que le RGPD a vraiment amené beaucoup plus de contraintes sur ces questions mais voilà, on est vraiment parti sur un modèle d'éthique personnelle.

[Fin de la musique de fond]

Nicolas Martin : Voilà le reportage du jour sur cette plate-forme AlgoTransparency. Je vais évidemment vous demander, Frédéric Bardolle, une réaction puisque c'est votre association Data For Good qui développe cette plate-forme.

Frédéric Bardolle : Déjà merci. C'est Soline qui a vraiment porté le projet sur le Serment d'Hippocrate et Guillaume Chaslot qui est à plein temps sur ce projet de AlgoTransparency et qui essaie d'étudier, notamment avec des scientifiques américains, d'autres algorithmes et leur fonctionnement, essayer de mieux comprendre comment ça marche.
Je voulais revenir surtout sur une chose c'est que, effectivement, il y a une responsabilité individuelle donc à travers ce serment qu'on propose. Mais on pense également qu'il y a aussi, comme le disait Soline, une responsabilité finalement, il y a des institutions à créer pour permettre de transformer la manière dont fonctionne le numérique à l'heure actuelle. Un exemple : à l'heure actuelle, il n'y a pas de statut intermédiaire entre un hébergeur et un média. Et le problème c'est quoi ?

Nicolas Martin : Exemple concret. Par exemple, prenons un réseau social. Pour les auditeurs, exemple concret, Facebook.

Frédéric Bardolle : Facebook ou YouTube sont des hébergeurs, donc ils ne sont pas responsables du contenu. Tout le contenu publié chez eux n'est pas sous leur responsabilité. Au contraire un média, tout ce qui est produit, si on dit quelque chose qui ne respecte pas la loi à la radio…

Nicolas Martin : Sur France Culture.

Frédéric Bardolle : Eh bien quelqu'un en portera la responsabilité.

Nicolas Martin : La directrice de la chaîne, moi d'abord, et puis la présidente.

Frédéric Bardolle : Donc il y a un grand écart en fait. Ce statut d'hébergeur marchait très bien au début de l'Internet, finalement c'était juste des annuaires où il y avait des vidéos uo des contenus produits par les internautes qui étaient là. C'est vrai qu'il n'y avait pas de rôle de responsabilité. Mais là, en fait, on assiste à quelque chose, c'est-à-dire qu'un algorithme qui propose 100 000 fois un contenu à un utilisateur, on pourrait se dire « quand même, il a un rôle éditorial ! », même si ce n'est pas un humain qui a fait ce choix de poser ça là. Au bout d'un moment, quand une nouvelle est diffusée de manière massive comme ça, nous on considère que cette plate-forme a un rôle éditorial, devrait avoir une responsabilité juridique parce que l'algorithme a un rôle éditorial dans ses contenus.

Nicolas Martin : Une réaction à ce que vient de dire Frédéric Bardolle et sur cette plate-forme AlgoTransparency. On va évidemment parler du Serment d'Hippocrate dans un instant mais d'abord sur le reportage et sur cette notion très intéressante de distinction entre hébergeur et média.

Nozha Boujemaa : Oui. Eh bien je suis d'accord dans la mesure où, effectivement, l'évolution des rôles, aujourd'hui, la frontière est très mince et surtout que les contenus, en fait, aujourd'hui sont consommés. Il n'y a plus, effectivement, ce rôle éditorial fait par un professionnel mais aujourd'hui c'est fait par un algorithme de recommandation de contenus. Donc, très clairement, la question de la neutralité de la recommandation du contenu se pose. Je voudrais pointer toujours sur cette même problématique, un autre contexte qui peut être embêtant,e n'est pas du B2C, en fait c'est du B2B.

Nicolas Martin : On rappelle : B2C c'est business-to-consumer et B2B c'est business-to-business. Donc de l'entreprise à l'entreprise et de l'entreprise au consommateur.

Nozha Boujemaa : Voilà. Exactement. Merci.

Nicolas Martin : C'est juste un petit bout de traduction franco-anglaise ; on nous reproche souvent, à juste titre, d'être trop anglophones.

Nozha Boujemaa : Tout à fait, à juste titre.

Nicolas Martin : Allons-y.

Nozha Boujemaa : Donc faire des recommandations de consommation de contenus culturels sur une plate-forme qui n'a pas de modèle d'affaires qui soit de la publicité. Je prends pour exemple Netflix. Une fois qu'on paye l'abonnement, on n'a pas de publicités à regarder.

Nicolas Martin : Pour le moment.

Nozha Boujemaa : Pour le moment. On peut se poser la question : c'est quoi les motivations des algorithmes de recommandation là-dedans ? D'accord ? Donc là, c'est un autre cas d'usage auquel il faudrait aussi un petit peu s'intéresser. Parce que là très clairement, la question de la concurrence va se poser entre des producteurs de contenus qui ont des accords avec Netflix et ceux qui n'en ont pas et aussi avec des producteurs de contenus culturels de l'industrie française, par exemple, qui peut se retrouver lésée. Et là, c'est un problème de concurrence et de position dominante et le ministère de la Culture aussi, à ma connaissance, s'intéresse également à ces questions.

Nicolas Martin : Frédéric Bardolle, c'est intéressant cet exemple de Netflix. Par ailleurs, puisque tous ces algorithmes sont biaisés et qu'il y a une intentionnalité derrière, dans ces biais, on peut imaginer que l'algorithme de Netflix privilégie les productions internes de Netflix et pas le contenu qui a été racheté à d'autres sociétés de production, qui sont seulement hébergées sur la plate-forme, pour privilégier le contenu interne et dire « eh bien vous voyez, les produits Netflix fonctionnent mieux que les produits de untel, de FOX ou …», peu importe.

Nozha Boujemaa : Et ce n'est pas forcément une personnalisation pour le consommateur, je rappelle.

Nicolas Martin : Bien sûr. Frédéric Bardolle.

Frédéric Bardolle : Et comme on n'a aucune transparence sur ce qu'on essaie d'optimiser avec cet algorithme, finalement on ne le saura jamais et c'est un gros problème ! Pour montrer un peu l'ampleur de la chose, il faut savoir que 70 % à 80 % du contenu sur Netflix provient de recommandations, donc ce n'est pas quelque chose qui se fait à la marge, c'est que les gens consomment ce qu'on leur recommande, en fait. C'est vraiment quelque chose qui est phénoménal et, sur toutes les plates-formes, en fait c'est la même chose.

Nicolas Martin : Parce que, par ailleurs, sur Netflix, la plate-forme est une gigantesque plate-forme de recommandations. C'est-à-dire que la plate-forme n'est pas présentée par ordre alphabétique, par exemple, ou par ordre de nouveautés ou très peu.

Nozha Boujemaa : Elle va le rajouter, elle est là.

Nicolas Martin : Voilà. Ce qui est intéressant. On entendait dans la reportage quelque chose sur lequel j'aimerais vous faire réagir. On va parler évidemment, surtout dans la deuxième partie, de cette notion de Serment d'Hippocrate, à qui il s'adresse, de son côté un peu finaliste, c'est-à-dire de dire que le Serment est signé finalement par les data scientists, par les scientifiques de données. Et pourquoi est-ce que ce serait les individus qui doivent s'engager et non pas les plate-formes ? C'est une question qui me semble importante à traiter. Mais avant cela, j'aimerais poser une question autour de cette notion d'interprétabilité. Prenons cet exemple de Netflix qui est assez bon. Aujourd'hui Netflix signerait un accord, un serment, peu importe, qui donne accès, qui permette de lire ses algorithmes aujourd'hui pour tout un chacun, pour nous citoyens en bout de chaîne, pour les consommateurs, c'est strictement illisible ! C'est-à-dire qu'on n'a pas accès à la compréhension de ce qui va permettre de régir à cet algorithme et d'ailleurs, si nous n'y avons pas intérêt, évidemment la plate-forme elle-même a encore moins intérêt à donner accès ces informations-là. Nozha Boujemaa.

Nozha Boujemaa : Oui effectivement. C'est là où il y a un effort international sur « faut-il réguler, comment réguler ? Etc. », au-delà des chartes d'engagement individuel. Tout dépend si c'est, j'allais dire, du software. [Rires]

Nicolas Martin : Logiciel ?

Nozha Boujemaa : Non. De la réglementation dure ou un peu plus légère mais, en tout cas, amener les producteurs de services, celui qui fait le service, à rendre compte. Là je mentionne les efforts faits au niveau de la Commission européenne mais aussi au niveau de l'OCDE qui réfléchissent très sérieusement par rapport à toutes ces questions parce qu'il y a une prise de conscience aujourd'hui internationale. Je ne dis pas que les solutions existent, mais la prise de conscience et la nécessité, l'urgence d'agir, elle est là. Du coup, typiquement sur l'intelligibilité, je ne parle pas d'explicabilité parce que, des fois, on n'a peut-être pas besoin et peut-être pas les moyens techniques de l'explicabilité mais, par contre, la traçabilité du pourquoi on a eu ce résultat, du genre « tel produit ou tel contenu est recommandé pour vous », on aimerait bien avoir une sorte de tableau de bord qui va nous dire « voilà les critères en pourcentage qui… »

Nicolas Martin : « Vous avez fait tel choix, tel choix, tel choix donc le logiciel infère que vous allez aimer telle chose. »

Nohza Boujemaa : On pourrait amener les producteurs des services, par régulation, à apporter et justement en apportant ces critères-là, en fait on respecte le libre arbitre du consommateur quand même. Parce que là on clique sur ce qui est proposé, mais est-ce qu'il est vraiment conscient de sur quoi… C'est quand même léger aujourd'hui, donc il y a cette notion de respect du libre arbitre via une réglementation dans ce sens-là.

Nicolas Martin : Je vais prendre un exemple volontairement un chouia provocateur dans l'état actuel des choses mais, encore une fois, la transparence n'implique pas compréhension. Si on prend une plate-forme comme Parcoursup dont l'algorithme a été rendu public par l'Éducation nationale, ce qui n'empêche, personne ne comprend, à aucun moment, les choix et les orientations que cet algorithme fait pour les étudiants qui veulent être inscrits dans les universités auxquelles ils ont fait la demande.

Frédéric Bardolle : La complexité supérieure qu'il y a, en plus, sur Parcoursup, c'est qu'il y a quand même une partie du code qui est cachée : le code qui est utilisé par les universités, « la cuisine interne » comme ils appellent ça.

Nicolas Martin : La sélection en bout de chaîne.

Frédéric Bardolle : Celle-là. Il y a toujours une demande, une requête qui a été faite à la Commission d'accès aux documents administratifs, la CADA, qui est en cours mais qui n'a pas abouti à l'heure actuelle et ce code n'est pas rendu public, donc il manque quand même un bout de la chaîne.
Pour revenir sur cette question d'auditabilité des algorithmes, nous quand on a essayé d'auditer l'algorithme de YouTube, c'est un peu ce qu'on a fait avec AlgoTransparency, on s'est rendu compte de la complexité qu'il y avait. C'est-à dire que déjà, d'une, tous les jours l'algorithme change. Comme des gens regardent des vidéos, en fait ça fait changer l'algorithme, donc finalement quelle est la vraie version ? C'est compliqué à dire.

Nohza Boujemaa : Les algorithmes et les corpus.

Frédéric Bardolle : Voilà !

Nohza Boujemaa : Les corpus aussi.

Frédéric Bardolle : Tout change au fur et à mesure. Et puis c'est d'une telle complexité ! Si on a des réseaux de neurones, ça va être aussi dur par exemple de dire « on a regardé cette vidéo parce que il y a une personne qui a regardé ça. » Il peut y avoir des millions et des millions de critères donc on ne va pas forcément s'y retrouver. Finalement, je trouve que c'est un peu comme quand on regarde les émissions de particules fines d'une voiture, c'est-à-dire que peu importe ce qui se passe dans la cuisine interne du moteur, ce qu'on va regarder, à la fin, c'est « est-ce que il y a des particules qui sont émises ? » et c'est ça qui nous intéresse. Mais, ça ce n'est pas disponible à la hauteur, on n'a pas de mécanisme qui nous permet de nous connecter directement à une plate-forme et de savoir « tiens, si on fait telle chose, on aura telle chose de recommandé ». Et en plus on se dit « si jamais ça existe, il va y avoir des trucages » comme il y en a eu notamment sur les voitures : quand on est arrêté, tout se passe bien et puis quand on roule en conditions réelles, ça ne marche plus du tout. Ce n'est pas évident comme question.

Pause musicale : Algorithms par School is Cool.

Nicolas Martin : Algorithms de School is Cool puisque c'est ce dont il est vaguement question au cours de cette heure puisque nous parlons d'éthique numérique et d'éthique en science des données et évidemment des algorithmes qui sont au centre de ces questions d'éthique, de leur transparence, de leur auditabilité et puis surtout de ce qui va se passer dans le futur, à partir d'aujourd'hui, avec les scientifiques qui sont formés aujourd'hui. Ces scientifiques doivent-ils être tenus, doivent-ils s'engager sur une sorte de charte de bonne conduite pour éviter toutes sortes de dérives que l'on peut constater d'ores et déjà aujourd'hui ? Nous en parlons avec Nohza Boujemaa qui est directrice de recherche INRIA, directrice de l'institut DATAIA, Institut de convergence français spécialisé en sciences des données, intelligence artificielle et société et avec Frédéric Bardolle qui est membre de l'association Data for Good qui a réalisé une plate-forme AlgoTransparency à propos de l'algorithme de YouTube, à propos de laquelle on a entendu un reportage tout à l'heure.
omme tous les mercredis, aux alentours de cette heure à quelques minutes près, il est l'heure d'écouter la voix du futur de la recherche.

[Virgule musicale]

Nicolas Martin : Aujourd'hui, le futur de la recherche s'appelle Jérémie Poiroux. Bonjour Jérémie Poiroux.

Jérémie Poiroux : Bonjour à tous, bonjour.

Nicolas Martin : Bonjour. Vous êtes avec nous en ligne puisque vous suivez vos études au centre Marc Bloch à Berlin en partenariat avec le CNRS. Vous êtes en première année de thèse en sociologie dans le cadre du projet ANR Algodiv [Agence nationale de la recherche - Information Diversity and Algorithmic Recommendation]. Je crois que vous êtes présentement en Pologne. Le titre de votre thèse c'est « La fabrique des algorithmes : conception et impact au sein des organisations » sous le prisme de leur conception et leur impact au sein des organisations. Je vais vous laisser quelques minutes pour nous présenter vos travaux. C'est à vous.

Jérémie Poiroux : Eh bien merci beaucoup pour cette présentation très précise et avec beaucoup de pression sur le futur de la recherche.

[Rires]

Jérémie Poiroux : C'est une thèse qui est sous la direction de Camille Roth. J'étais en effet en Pologne mais là je suis de retour à Berlin pour continuer cette étude sur la fabrique des algorithmes de recommandation et de management, alors c'est vrai, pour prendre un peu le contre-pied de ce qui se fait en ce moment. Il y a une littérature qui est assez limitée sur la fabrique. On parle pas mal de transparence, d'ouvrir la boîte noire, on a eu pas mal de débats aussi juste avant la pause musicale. Et quelque chose qui ne se fait pas beaucoup c'est comment ils sont fabriqués. Donc mon premier terrain ce sont les algorithmes de recommandation donc ces petits programmes — peut-être que je dis des choses qui ont déjà été dites quelques minutes avant — qui vont vous inviter, voire vous inciter à consommer un contenu ou un produit ; donc ça peut être un film sur Netflix, on en reparle, une chambre sur Airbnb ou un article sur le site d'un média. Vous me direz qu'en soi, recommander une sacoche quand j'achète un appareil photo ou un hôtel quand je vais passer une semaine en Grèce, c'est un peu de bonne guerre. Mais on peut se poser plus de questions quand il va s'agir de recommander du contenu culturel ou d'intérêt général car ils pourraient nous enfermer. Alors là je dis attention car il y a un « point Algodwin » parce qu'on parle beaucoup de bulle filtrante qui pourrait nous empêcher de voir plus loin que le bout de notre zone de confort. Je m'arrête ici sur les impacts parce que vous allez en parler, vous en avez beaucoup parlé.
En fait, je m'intéresse plutôt, comme je le disais, à la fabrique. On va reprendre l'exemple de YouTube. Vous vous êtes déjà demandé pourquoi l'algorithme de YouTube va recommander, à droite ou sur la page d'accueil, cette vidéo de chatons ou la vidéo de terre plate ? Dans l'étude préparatoire que j'ai faite et que je suis entrain de terminer, qui lance la thèse, j'ai mené des entretiens avec plusieurs dizaines d'ingénieurs qui programment des algorithmes de recommandation pour des médias, pour des sites de e-commerce, pour des plates-formes de streaming, pour mieux comprendre, en fait, d'où vient l'algorithme. L'objectif, dans ma thèse, c'est de mettre en valeur les intentions, les pourquoi, les comment qui se cachent derrière les algos, les choix business ou encore les biais qui sont directement implémentés de manière consciente ou non dans la machine. Donc si on en revient à l'exemple de YouTube, c'est aller étudier pourquoi il vous recommande cette vidéo de terre plate alors que vous n'aviez rien demandé.
C'est un peu dévoiler en quoi rien n'est laissé au hasard dans le monde merveilleux des algorithmes et puis dévoiler un peu la face cachée de leurs impacts.
Donc je vais aller dans les entreprises, je vais faire de l'immersion, je vais observer directement la conception et le développement d'algorithmes : qui fait quoi, d'où vient l'idée de base, quelles sont les contraintes, quelles sont les méthodes utilisées ou encore quelle est la conscience qu'on a dans les entreprises des impacts des algorithmes qui sont conçus.

Mais le bonheur ne s'arrête pas là et là, c'est un peu la transition brute pour passer à l'autre temps de mon sujet qui est : l'utilisation des algorithmes qui est de plus en plus importante au sein même des entreprises. On voit depuis des années, depuis des dizaines d'années, des robots remplacer les humains pour faire. Donc c'est sur les chaînes de production, dans les usines, dans les entrepôts pour préparer les commandes, Amazon par exemple. Demain, les algorithmes vont être présents encore pour faire mais aussi pour organiser et manager le travail. Ça c'est une grosse différence. C'est d'ailleurs déjà le cas avec Uber où les chauffeurs répondent aux ordres d'algorithmes qui sont managers, pour se placer dans telle ou telle zone parce qu'il y a plus de personnes ou pour travailler sur telle ou telle plage horaire parce que Uber manque de chauffeurs à telle ou telle plage horaire. Donc à terme, on peut dire que les algorithmes vont analyser les données de production, de ventes et de productivité pour prendre des décisions ou pour aider à la prise de décisions, décisions qui auront un impact direct sur les travailleurs de l'organisation. Donc c'est une nouvelle pratique managériale, on peut appeler ça comme ça, ce qui pose des questions de productivité et évidemment de conditions de travail et qui m'amènera à comparer on va dire les bureaucraties traditionnelles et les bureaucraties algorithmiques.
Donc les questions éthiques sont évidemment présentes dans les deux pans de la thèse. Par exemple, que fait un ingénieur devant une demande d'un PDG et que cet ingénieur juge cette demande contraire à son éthique ? Ou que fait un manager qui est invité par un algorithme à prendre une décision qu'il juge dangereuse pour son équipe ?
Voilà, si vous êtes intéressé par les recherches. Je fais aussi un petit appel à des entreprises qui peuvent m'accueillir pour cette immersion, n'hésitez pas à me contacter. Je vous remercie pour votre écoute et j'ai fini mes quatre minutes de Futur de la recherche. Merci pour votre invitation Ève et Nicolas.

Nicolas Martin : Merci beaucoup Jérémie Poiroux. On va vous garder un instant en ligne, si vous voulez bien, parce que j'aimerais que vous interveniez et que vous réagissiez un peu à ce qui va se dire en studio. Je vais demander une réaction et puis félicitations pour le « point AlGodwin » qu'on a beaucoup aimé. Une réaction Nozha Boujemaa. Je vous voyais approuver aux présentations des travaux de Jérémie Poiroux.

Nozha Boujemaa : Effectivement, la recherche a un rôle très important à jouer. Ce dont on n'a pas encore bien appuyé, l'idée au-delà de l'auditabilité, du contrôle et de la transparence des algorithmes existants, c'est vraiment essentiel d'avoir une formation des étudiants justement à la réutilisation des briques logicielles open source sur les fuites informationnelles, mais surtout, en fait, c'est avoir de nouveaux modèles mathématiques d'apprentissage qui puissent identifier des variables discriminatoires pour réduire leur impact sur les prises de décision. Donc là c'est vraiment d'un point de vue recherche cœur d'IA, c'est-à-dire qu'au-delà des algorithmes existants faire de nouveaux modèles qui incorporent ces idées d'égalité et d'équité par construction dans le modèle mathématique lui-même ; chose qui existe très rarement !

Nicolas Martin : Frédéric Bardolle, un mot.

Frédéric Bardolle : Moi j'ai juste une crainte c'est que même si on développe des nouveaux modèles aussi performants qu'ils soient, on ne va pas réussir à résoudre le cœur du problème qui est que les plates-formes font ça — on va juste parler des recommandation de contenus, par exemple avec un business model basé sur la publicité : le but c'est d'avoir l'attention des personnes. Pour avoir cette attention, l'idéal c'est de proposer un contenu qui fasse rester les gens et le problème c'est que les contenus qui font rester les gens ce sont des contenus extrémistes, des contenus terroristes, des contenus conspirationnistes et ainsi de suite.

Nicolas Martin : Oui, dans le pire des cas, sur YouTube, etc. Sur des sites de vente, on a peu de vente de sacs à main terroristes !

Frédéric Bardolle : Non. Je parlais juste des business models, quand le business model c'est de capturer l'attention des personnes et de leur diffuser des contenus. Le problème c'est que ces contenus vont toujours gagner par rapport aux autres. À part si on trouve des moyens de changer ce modèle-là, un algorithme qui recommande un contenu extrême, c'est un algorithme qui fonctionne bien ; c'est un algorithme qui fait exactement ce pourquoi il a été conçu c'est-à-dire faire rester la personne sur la plate-forme ; lui a rempli son travail, en fait. Donc, l'algorithme fonctionne déjà plutôt bien.

Nozha Boujemaa : Je pense qu'il faut régir les cas d'usage au-delà de ces modèles-là, par exemple sur la variabilité des prix, ce qui est autre chose. Quand on va sur des plates-formes pour réserver des nuits d'hôtel ou bien des billets d'avion ou de train, là il ne s'agit pas de l'attention ; là c'est un autre business model. Et là, on peut se retrouver dans des situations de discrimination justement quand on passe à l'acte d'achat, qu'on fait rentrer des données personnelles, on peut voir des variations de prix qui vont être dépendantes, on ne va pas avoir le même prix pour toutes les personnes. D'accord ?

Nicolas Martin : Ah oui !

Nohza Boujemaa : Donc c'est pour ça qu'à un moment donné, il faut vraiment avoir une vue un peu plus…

Nicolas Martin : En fonction de ? En fonction de la localisation géographique ? En fonction de ?

Nohza Boujemaa : Ça peut être la localisation, l'origine, etc. Il y a certains formulaires qui demandent des questions.

Nicolas Martin : Quand je rentre mes coordonnées de carte bancaire pour acheter un billet d'avion, je ne donne pas accès à mon origine ethnique par exemple ?

Nohza Boujemaa : Sur certains sites , enfin sur certains sites de services. Aujourd'hui c'est ça le problème, c'est que les services ne connaissent pas les frontières, donc on est amené à répondre à des questionnaires traduits, qui sont faits par des firmes qui ne sont pas spécialement ou particulièrement françaises. D'accord ? Donc on peut se retrouver entrain de répondre avec des informations assez intrusives d'un point de vue données personnelles. Et là, on peut constater des variations de prix. D'ailleurs, dans ce cadre-là, par exemple la DGCCRF, qui est une autorité de régulation, se pose vraiment la question.

Nicolas Martin : Direction générale de la concurrence, de la consommation et de la répression des fraudes.

Nohza Boujemaa : Voilà, et qui a d'ailleurs envie de lancer des sujets de recherche pour faire la part des choses, parce que tout n'est pas condamnable ; le lean management, c'est légal. Par contre, faire une variabilité des prix qui est finalement une discrimination sur des raisons non avouées, ça, ce n'est pas légal.

Nicolas Martin : J'aimerais qu'on revienne, pour conclure, dans le dernier quart d'heure qui nous reste, sur cette notion de serment.
Il y a ce Serment d'Hippocrate qu'on évoquait tout à l'heure via Data for Good et AlgoTransparency. Il y a un autre serment qui est le Serment Holberton-Turing7 qui est une autre charte qui propose, en fait, une forme de charte de bonne conduite. Ma première question c'est ce lien avec Hippocrate. Le serment d'Hippocrate c'est le serment qui est prêté par les médecins qui s'engagent, je l'ai sous les yeux, je ne vais pas vous le redire mais bon, consacrer sa vie à sauver l'humanité, à sauver les vies, à ne pas discriminer en fonction de l'âge, de l'origine ethnique, etc. Est-ce que c'est bien judicieux de mettre sur le même plan le serment qui est prêté par les médecins qui ont entre les mains des vies humaines et aujourd'hui, celui que l'on souhaite faire signer aux data scientists dans le monde numérique selon vous, Frédéric Bardolle ?

Frédéric Bardolle : On a choisi ce nom-là principalement parce que déjà ça résonnait chez les gens. Quand on parle de Serment d'Hippocrate, n'importe qui voit ce dont il s'agit, donc c'est assez facile d'en parler. Ce dont on s'est aperçu c'est que, finalement, les gens qui créent ces services de science des données vont toucher énormément de personnes ; ils ont un pouvoir individuel qui est finalement assez grand, donc c'est pour ça qu'on a proposé ce Serment qui nous semble important, c'est-à-dire qu'une petite équipe peut toucher un très grand nombre de personnes. C'est pour ça qu'on considère qu'il y a aussi une responsabilité individuelle à avoir et c'est pour ça qu'on s'est permis d'emprunter le nom d'Hippocrate.

Nicolas Martin : Un mot à ce propos Jérémie Poiroux. Un Serment d'Hippocrate pour les data scientists, ça vous semble être aujourd'hui une démarche qui va dans le bon sens ou en tout cas une forme de responsabilisation des futurs ou des actuels data scientists dans le travail qu'ils peuvent faire vis-à-vis des firmes comme ça peut être le cas dans vos prochains travaux, dans vos prochaines affectations ?

Jérémie Poiroux : Oui. J'aimerais faire le parallèle avec ce qui s'est dit lors d'une conférence que j'ai organisée en début de semaine dernière, Ethics by design. On parle justement de l'éthique des designers. Le parallèle est assez fort parce que les designers, notamment sur les questions d'attention, ont un pouvoir qui est assez fort. On peut dire exactement la même phrase. Ce sont quelques designers par exemple chez Facebook, chez Google, donc ce ne sont pas les data scientists mais ce sont les personnes qui vont mettre en valeur visuellement les contenus pour que ça soit attractif, pour qu'on ait envie de cliquer dessus, pour qu'on ait envie d'acheter des fois. Et puis, pour ces personnes, on se demandait aussi « est-ce que il faut un Serment d'Hippocrate pour cette profession ? ». C'était un débat où il y avait « oui, non » — je pense que je vais refaire la même que celle des data scientists — et la réponse qui était apportée c'est que oui c'est important d'avoir, on va plutôt dire un manifeste qu'une charte, qui serait là et auquel on pourrait se référer. Ce serait une éthique commune plutôt qu'une éthique personnelle.
Après il y a aussi le pendant un peu contre que je rejoins un peu plus on va dire. En l'état, ce n'est pas pour tout de suite, parce qu'avoir un Serment d'Hippocrate, ça veut aussi dire avoir des barrières à l'entrée d'un métier par exemple. C'est-à-dire que le métier de data scientist, tout le monde ne pourra pas se dire data scientist. Ça sera une étiquette, il faudra passer par des concours, il y en a qui n'y seront pas. Et donc c'est toute une réflexion en fait, c'est toute une nouvelle façon d'appréhender la data science ou d'appréhender le design, d'avoir, en fait, des personnes qui suivent tout un processus et qui sont, après, on va dire « estampillées » designers ou data scientists et qui respectent une certaine charte.

Nicolas Martin : Nohza Boujemaa, sur ce sujet.

Nohza Boujemaa : Oui. Je pense effectivement que c'est une bonne action, une très bonne intention aussi pour sensibiliser les individus, mais très clairement, c'est insuffisant. C'est-à-dire qu'il faut avoir l'engagement des entreprises, c'est la réalité, et avoir des efforts en parallèle parce que, très clairement, un employé d'une entreprise il peut être convaincu mais c'est, je dirais, l'entreprise et c'est la responsabilité de l'entreprise qui est engagée, pas sa responsabilité personnelle. Ceci dit, c'est important d'avoir cette sensibilisation individuelle, mais il ne faut pas s'arrêter là. L'effort qui est entrain d'être fait dans énormément d'endroits au niveau international, c'est vraiment d'impliquer les industriels de tout horizon parce que maintenant ils comprennent que la question de la confiance c'est une question là où ils peuvent perdre du marché et que la confiance est un élément de compétitivité. Et du coup, ça génère une adhésion à ces questions d'IA responsable et ces questions de responsabilité. Donc il faudrait pouvoir joindre les deux bouts et pas seulement focaliser sur juste un aspect ; il faudrait aussi les deux bouts de la chaîne.

Nicolas Martin : Frédéric Bardolle, cette question-là, effectivement, de faire reposer le serment d'Hippocrate sur les individus en formation, c'est-à-dire sur les data scientists plutôt qu'une sorte de charte de bonne conduite au niveau international, au niveau, pourquoi pas, européen pour commencer, puis ensuite avec la volonté de l'élargir. Parce que la question qui se pose entre les individus qui vont être à un moment donné pris dans une chaîne de production et, effectivement, le poids que peuvent faire peser les responsables de cette chaîne de production, donc l'entreprise, le poids est assez écrasant, je veux dire, on ne lutte pas à armes égales.

Frédéric Bardolle : Effectivement non. On n'a pas fait ce projet pour dire que le faire en entreprise, ça ne sert à rien. C'était un premier pas, c'était pour agir rapidement, proposer quelque chose rapidement aux personnes, parce que on s'est rendu compte qu'il y avait un besoin et, du coup, on va notamment le proposer dans les écoles et dans les entreprises. Après, il faut voir que certaines entreprises, notamment américaines comme Google, ont fait des serments d'éthique pour l'IA, ont dit : « On refuse de travailler par exemple sur certains projets militaires, on refuse de faire ça, ça et ça ».

Nicolas Martin : Récemment.

Frédéric Bardolle : Récemment.

Nozha Boujemaa : Parce qu'elles ont compris l'importance de la confiance ?

Frédéric Bardolle : Ça n'engage que ceux qui y croient ! Et je pense que là où je vous rejoins sur l'importance de la confiance, c'est que je suis persuadé qu'en Europe, la carte qu'on a jouée sur le numérique et notre caractère distinctif par rapport aux États-Unis et par rapport à la Chine, ça va être justement sur ça, sur créer des entreprises qui utilisent l'IA mais de manière éthique. Et un exemple très concret pour ça c'est Snips. C'est une entreprise qui fait un assistant vocal dans lequel il n'y a aucune donnée qui est envoyée sur Internet, les données restent chez vous, ce n'est pas comme si vous aviez un micro qui enregistre en permanence tout ce qui vous dites chez vous. Donc voilà ! Je pense qu'on peut faire la différence avec ce genre d'entreprises et l'éthique n'est pas incompatible avec le commerce qui fonctionne.

Nohza Boujemaa : Effectivement. Je rajoute tout ce qui est personal informations management system, c'est tout ce qui est modèle de protection des données personnelles de manière distribuée, qui ne quitte pas votre ordinateur. Il y a énormément de choses qui restent à faire et je voulais quand même mentionner qu'au niveau de la Commission européenne, il y a un high-level expert group.

Nicolas Martin : Un groupe de haute expertise, de haut niveau d'expertise.

Nozha Boujemaa : En IA, qui est constitué par la Commission européenne, pour pouvoir apporter des recommandations à la fois éthiques mais aussi de régulation et également d'investissement en recherche et développement, et la pièce maîtresse c'est comment faire de l'IA la plaque tournante d'une IA nouvelle et différente de ce qui est proposé dans le reste du monde. L'éthique et la responsabilité de l'IA en font une pièce maîtresse.

Nicolas Martin : J'ai une question, peut-être très naïve ou de béotien, Jérémie Poiroux je vais vous la poser en premier lieu : est-ce que, aujourd'hui, ces questionnements éthiques qui sont les nôtres autour de cette table, qui sont manifestement partagés par un certain nombre d'acteurs européens, ont un sens au niveau international, notamment avec votre regard, quand on commence une carrière dans ce métier-là ? On sait qu'il y a d'autres pays avec des pratiques qui sont plus dans l'incrémentation en puissance plutôt que la limitation éthique, pour le résumer à grands traits.

Jérémie Poiroux : Oui. Disons que la question de l'éthique et du business n'est clairement pas nouvelle. En Europe, on peut dire qu'on a une longueur d'avance là-dessus et je pense que la réponse simple c'est que très clairement dans d'autres pays, et on pensent très facilement aux États-Unis, il n'y a pas cette notion, il n'y a pas cette culture.

Nicolas Martin : Ou à l'Asie. On pensait plutôt à la Chine ici personnellement, on avaient plutôt la Chine en tête. Mais pourquoi pas les États-Unis, oui.

Jérémie Poiroux : Ah oui ! Encore mieux parce que, comme ça, vous pourriez faire un tour du monde ensuite vers la Chine. Non je pense que déjà, sur les questions d'éthique, avec les États-Unis, on est vraiment différents. On n'a pas cette même approche de l'implémentation de l'éthique dans le numérique, en fait du code, de développer et de programmer directement dur l'éthique dans les programmes et d'avoir plutôt cette notion de business. On le voit avec le RGPD par exemple. Je pense que c'est une première chose, un écho, en fait, qui n'est pas tout à fait sur le même temps. En privacy by design, on voit que l'Europe est en avance et que toute cette réflexion est aussi en avance par rapport aux États-Unis. Je vous laisse le côté Chine !

Nicolas Martin : On va voir pas forcément le côté Chine, le côté international. C'est une bonne chose évidemment que l'Europe soit en avance sur les questions éthiques, mais est-ce que ce n'est pas aussi un frein au développement stricto sensu technologique, Frédéric Bardolle ?

Frédéric Bardolle : C'est peut-être un frein dans un premier temps effectivement. Tant qu'on était techno-optimistes et que tout se passait bien, effectivement c'était embêtant de se poser des questions sur la privacy, mais maintenant, quand on voit toutes les fuites de données, il n'y a pas une semaine qui passe sans qu'il y ait une fuite de données chez un GAFA et ainsi de suite.

Nicolas Martin : Récemment, 50 millions de comptes piratés chez Facebook.

Frédéric Bardolle : Voilà. Et la même semaine, Facebook sort une espèce de caméra qu'on met chez soi et ce qu'ils appellent le privacy by design, c'est une espèce de petit cache en plastique qu'on met pour cacher la caméra. Pour eux c'est ça la privacy ! Effectivement, peut-être qu'à un moment donné ça a pu être un frein mais, sur le long terme, on sera à mon avis clairement les gagnants de ce jeu-là.

Nicolas Martin : Un dernier mot de conclusion.

Nohza Boujemaa : Oui, effectivement ça c'est très important et en tout cas, l'Europe et la Commission européenne ont compris. On a été hier en Finlande en réunion avec la Commission européenne et avec les représentants des différents États membres sur le numérique et l'IA, très clairement, c'est identifié. Maintenant, il y a des acteurs américains qui ont compris que pour avoir du marché sur le terrain européen, il va falloir qu'ils soient conformes, justement, à ces règles à la fois éthiques et de responsabilité de l'IA.

Nicolas Martin : Merci beaucoup, ça sera le mot de la fin. Merci beaucoup à tous les trois. Merci Nohza Boujemaa, merci Frédéric Bardolle, merci Jérémie Poiroux qui était avec nous en direct au téléphone depuis Berlin. Merci à tous d'être venus participer et discuter autour de ces questions d'éthique numérique à ce micro.
Je vous rappelle que comme tous les mercredis c'est le jour de la sortie des Idées claires, en podcast mais également en vidéo sur vos réseaux sociaux favoris. Une petite vidéo qui s'attaque aux idées reçues, aux idées complotistes, aux distorsions de l'information. Aujourd'hui la question que nous posons dans Les idées claires, et vous pouvez aller voir ça sur le Facebook, notamment, ou le Twitter de France Culture et de France Info puisque c'est en partenariat entre les deux chaînes, la question que nous posons qui est une question, vous allez voir, assez simple, assez fraîche, qui ne répond pas, qui ne demande pas énormément de commentaires ou de réflexion : existe t-il un racisme anti-blanc ? Les commentaires sont assez croquignolets.

Merci à toute l'équipe de La méthode scientifique, c'était aujourd'hui Alice Seyed à la technique. Dans le prochain épisode de La méthode scientifique nous parlerons des revues payantes à comité de lecture, des revues de plus en plus contestées, de plus en plus piratées et de plus en plus dénoncées. Et si l'heure était à l'open access ? On en parle demain de cette recherche en accès libre à 16 heures jusqu'à preuve du contraire.