Data, la bataille du siècle - Futurapolis 2017
Titre : Data, la bataille du siècle
Intervenants : Gérard Berry - Aurélie Jean - Gaspard Koenig - Guillaume Grallet - Étienne Gernelle
Lieu : Futurapolis 2017 - Toulouse
Date : novembre 2017
Durée : 58 min 40
Visualiser la conférence
Licence de la transcription : Verbatim
Illustration : copie d'écran de la vidéo
NB : transcription réalisée par nos soins.
Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.
Description
Qu’elle soit Big ou Open, la data ne cesse de faire parler d’elle. La démocratisation des objets connectés, l’effondrement du coût de stockage et les perspectives de l’utilisation commerciale qu’elle offre ont fait entrer la data dans une nouvelle ère.
Ces données qui savent déjà traquer nos moindres déplacements, achats, et battements de coeur sauront-elles anticiper nos désirs cachés, améliorer notre santé ou décider à notre place ?
Transcription
Présentateur : Avec nous Aurélie Jean, scientifique numéricienne et entrepreneure, cofondatrice de MixR.net. Gérard Berry, professeur au Collège de France, membre de l’Académie des Sciences, on peut l’applaudir. Gaspard Koenig professeur de philosophie et essayiste. Et rien de moins qu’un fameux duo de choc pour les questionner, à ma gauche Étienne Gernelle — on vous avait présenté comme modérateur, ce qui est surprenant quand on vous connaît un peu — directeur du Point et Guillaume Grallet, pour la caution sérieuse et morale qui est tout au bout, merci Guillaume. À vous messieurs.
Étienne Gernelle : Merci beaucoup Maurice. On est très contents d’être là aujourd’hui avec un panel extrêmement prestigieux et qui n’a pas peur, en plus. C’est parti. On va parler des data et les data c’est quelque chose qu’on voit souvent dans les nuages, un peu partout, mais c’est aussi très concret. Je voulais commencer, avant qu’on rentre dans le dur, le débat, la polémique, la violence, qu’on se demande une question très simple : puisque les data on dit souvent que c’est le pétrole du XXIe siècle, le pétrole ça prend très longtemps à produire, mais les data c’est nous qui les produisons ; alors depuis ce matin, qu’est-ce que vous avez produit comme données vous ? Vous avez forcément produit des données depuis que vous êtes levé ce matin !
Gaspard Koenig : Oui, on a produit plein de données. Moi j’en ai peut-être produit un tout petit peu moins, parce que j’enlève la géolocalisation sur mon téléphone, sur mon smartphone.
Étienne Gernelle : C’est un rebelle Gaspard.
Gaspard Koenig : Je conseille à tout le monde de le faire. Il faut rentrer les adresses à la main mais comme ça, au moins, vous n’êtes pas traçable.
Étienne Gernelle : Aurélie.
Aurélie Jean : Déjà Google Maps, forcément, pour venir jusqu’ici à pied. Donc la géolocalisation qui est forcément traitée, absorbée et j’imagine que les pubs après qui me seront proposés sur Google seront forcément envoyés à ma géoloc. Google, forcément. WhatsApp, Messenger. Donc oui, je pense qu’il y a eu beaucoup de données qui ont été collectées depuis ce matin me concernant en tout cas.
Étienne Gernelle : Bravo ! Vous êtes une bonne productrice de données.
Aurélie Jean : Très bonne productrice, c’est vrai !
Étienne Gernelle : Gérard Berry.
Gérard Berry : L’idée que c’est nous qui produisons les données est une idée qui n’est pas tout à fait juste. Les données que nous produisons nous-mêmes ce n’est rien du tout par rapport aux données qui sont produites pour nous par nos appareils. Par exemple ce matin je me suis servi de mon ordinateur pour faire du courrier électronique et je sais qu’il y a beaucoup de gens qui ont su exactement à quelle vitesse je tapais les touches, quand, où, comment j’écrivais, et qui sont capables de rejouer des sessions que je fais, ce qui est tout à fait scandaleux, mais c’est généralisé. Donc j’ai produit une quantité phénoménale de données rien qu’en faisant ce que je fais d’habitude. Personnellement j’ai décidé que je m’en fichais, mais ce n’est pas forcément vrai pour tout le monde.
Étienne Gernelle : Pardon, question un peu technique, mais est-ce que c’est stocké le rythme auquel on écrit sur un ordinateur ? Comment c’est possible ?
Gérard Berry : Ça ce n’est rien du tout, ça c’est tout petit. C’est la vidéo qui prend de la place, mais comment on tape sur un ordinateur, c’est très facile à stocker, ça ne prend pas de place.
Guillaume Grallet : Il y a une autre question qui nous passionne avec Étienne, hier, au marathon des créatifs, il y a une start-up qui était innovante et, en fait, on avait finalement peu de choses à lui reprocher parce qu’elle disait : « À chaque fois que vous allez faire un achat, on a mis au point un système dans lequel le ticket de caisse, il y a QR Code, vous pourrez le scanner et vous aurez une réduction immédiate sur les futurs achats et, en même temps, le commerçant va récupérer vos données. » Donc il expliquait que c’était une plateforme révolutionnaire et c’est vrai qu’il y a un business modèle assez bon. Ma question, pour l’instant, c’est est-ce qu’on peut récupérer l’usage de ses données ? Je crois, Gaspard, avec votre think tank, vous réfléchissez à une solution assez radicale là-dessus.
Gaspard Koenig : En fait c’est intéressant, parce que pourquoi cette start-up fait ça en passant par les bons d’achat ? Simplement parce qu’elle n’a pas le droit aujourd’hui, dans l’état actuel du droit, de rémunérer les utilisateurs pour les data qu’ils produisent. Donc ils passent par des choses un peu de biais comme les bons d’achat.
Aujourd’hui il n’y a pas en droit, ni aux États-Unis, ni en Europe, de propriété privée sur les données. Les données ne sont pas de nature patrimoniale. J’entends les données personnelles. Parce qu’ensuite, les données qui sont récupérées par les plateformes sont, elles, agrégées ou créées d’ailleurs, et forment des data-bases qui sont, elles, soumises au droit de propriété intellectuelle et qui forment l’essentiel du business modèle des grandes plateformes qui ensuite peuvent les revendre y compris à des institutions publicitaires qui, Aurélie l’a dit, vous « retargettent » et vous proposent les produits que vous êtes censé vouloir.
Le grand vol dans tout ça — ce n’est pas grave, c’est une industrie nouvelle, ça fait dix ou vingt ans ; la révolution industrielle on a mis des dizaines d’années pour produire le brevet, la propriété intellectuelle que cette révolution appelait. De même je pense que la révolution numérique appelle la création d’un droit de propriété sur la data et sur la data personnelle. Parce qu’aujourd’hui, on dit c’est le pétrole du XXIe siècle, mais le producteur du pétrole, le raffineur du pétrole, il se fait de l’argent avec la valeur ajoutée qu’il apporte, c’est normal, mais le producteur primaire du pétrole, qui est vous et moi, vous n’êtes pas rémunérés, vous n’êtes pas payés par Google, vous n’êtes pas payés par Facebook. Or, quand vous sortez de chez vous, vous fermez la porte de votre appartement ; si vous oubliez votre portefeuille dans un magasin vous allez le chercher ; si quelqu’un l’a volé, vous allez porter plainte. Vous avez des objets qui sont à vous, que vous protégez. Pourquoi est-ce qu’il n’en serait pas de même des data ?
On va me dire « oui mais les data vous offrent un service gratuit » ; c’est ce que dit Tirole d’ailleurs dans son livre : quand vous utilisez Google, vous utilisez un service donc si vous laissez vos data, en un sens c’est un échange. Oui, mais c’est un échange très collectiviste puisque c’est le même pour tous. Quelle que soit la valeur des data que vous apportez à Google, vous n’avez absolument pas le choix, vous cliquez simplement sur des terms and conditions que vous ne comprenez pas. À titre d’exemple, les terms and conditions de Paypal sont plus longues que Hamlet et beaucoup moins amusantes à lire. Et dans l’hypothèse même que vous les ayez lues, vous n’allez certainement pas les négocier. Je ne sais pas si vous vous rappelez que récemment il y avait eu un scandale, il y a un an, parce que Facebook avait modifié les posts que recevaient un certain nombre d’utilisateurs en leur donnant à voir des choses négatives. Conclusion de l’étude c’était : quand les gens voyaient des messages négatifs ils devenaient plus tristes. Il ne fallait pas être un grand génie pour trouver ça ! Donc les gens ont protesté, mais le plus intéressant et le plus scandaleux c’est qu’en fait Facebook avait le droit de faire ça ; parce que dans les terms and conditions, que vous n’avez pas lues, vous laissez à Facebook le droit d’utiliser vos data, y compris sur vous-même, pour toute fin de recherche qu’il juge nécessaire.
Donc face à ça, face à ce nouveau problème des communs qui est que nos data sont pillées, sont dans la nature, évidemment, les gens s’en rendent compte, il y a plusieurs grandes options de politique publique qui apparaissent et qui, en fait, remettent au goût du jour les vielles philosophies politiques qui ont quelque chose à dire sur ce problème des data.
Vous avez l’option communiste qui est de nationaliser la donnée, et elle est discutée puisque quand Pierre Bellanger parle de souveraineté numérique, il a ça en tête. Il dit l’État, finalement, ramène toutes les données, les anonymise et ensuite les redistribue.
Vous avez l’option qui est aujourd’hui adoptée par les régulateurs européens et aussi français, par la CNIL, par le prochain règlement GDPR [General Data Protection Regulation], qui est un système de droits et d’obligations, ce qu’on appelle le droit personnaliste. C’est-à-dire vous avez le droit de savoir quel algorithme a utilisé vos données bancaires par exemple ; vous avez le droit à l’oubli. À l’inverse, les plateformes ont l’obligation de proposer des algorithmes qui ne prennent pas en compte votre historique recherche, etc. Ce sont des droits et des obligations qui vont être extrêmement compliqués, qui vont judiciariser les processus, qui vont probablement freiner l’innovation et qui vont coûter énormément aux entreprises.
Vous avez une troisième option, ce n’est pas moi qui la propose, déjà Jaron Lanieraux États-Unis a beaucoup travaillé là-dessus, le think tank que je dirige est en train de faire un rapport avec des gens qui s’y connaissent mieux que moi.
Étienne Gernelle : Génération libre.
Gaspard Koenig : Génération libre. Pour comprendre comment économiquement, juridiquement, ça peut tenir la route. C’est de créer un droit de propriété sur la data qui fait que via des intermédiaires qui se créeront, chacun peut vendre à ces plateformes ses data selon un prix qui sera un prix de marché. C’est-à-dire qu’il vous dira moi j’abandonne toutes mes data à Facebook par exemple, en échange j’ai le maximum ; ou moi j’utilise Facebook sans lui donner mes data, donc je paye, je paye le prix, c’est normal parce que je crée une externalité négative pour la plateforme ; ou bien je les cède mais, par exemple, avec des conditions : sans qu’il cède à des tiers, sans que ceci cela et, à ce moment-là, il y a un prix qui sera négocié. Chacun aura une sorte de compte intelligent avec des flux permanents de crédit et de débit sur l’utilisation qui sera faite de ses data et, me dit-on techniquement, la blockchain — c’est le mot magique qui permet de tout résoudre — permettrait d’y arriver.
Pourquoi ça ne se fait pas aujourd’hui ? Je ne vais dans les détails, mais ça serait intéressant d’en parler, pourquoi ça ne se fait pas aujourd’hui, quelle est la résistance philosophique profonde ? La résistance philosophique profonde, qui est clairement expliquée par le Conseil d’État dans son rapport de 2014 sur le numérique, qui est un texte très intéressant qui traduit toutes nos névroses, le problème philosophique profond c’est que la data est considérée par les juristes, par nos gouvernants, comme l’émanation de soi, les données personnelles. Or le soi, depuis le droit romain, le soi est un sujet, n’est pas un objet ; le soi n’est pas patrimonial : je ne peux pas vendre mon corps, je en peux pas vendre mes organes, je ne peux pas vendre mon cadavre ; même si d’ailleurs les hôpitaux les revendent ensuite à des chirurgiens, c’est le même problème finalement pour la data. Mais bon !
Donc vous avez un article 16-5 du Code civil qui dit « le corps n’est pas à vendre ». Puisque je ne peux pas marchandiser mon corps, c’est le même débat que sur la GPA [Gestation pour autrui], je ne peux pas marchandiser ma data. Et comme je ne peux pas la marchandiser eh bien, en fait, je me laisse piller. Alors que si on va jusqu’au bout de la logique de la modernité, jusqu’au bout de la logique de Locke qui est le premier à avoir posé que « je m’appartiens à moi-même », I own mysef, contre la logique judéo-chrétienne qui voulait que nous ne soyons que l’usufruitier de notre propre corps qui, in fine, appartient à Dieu et reviendra dans son royaume, si véritablement nous sommes dans un monde immanent où personne d’autre que moi ne peut être propriétaire de moi-même, eh bien oui, il faut poser un droit de propriété de soi sur soi, dont la conséquence logique sera aussi d’avoir un droit de propriété sur les data.
Tout ça, ce sujet de la patrimonialité des data, nous ramène à des options philosophiques profondes sur l’avenir de nos sociétés, parce que si vous substituez au sujet de droit romain la propriété de soi sur soi, vous chamboulez un certain nombre de systèmes juridiques et économiques et je pense que ça ce sera l’avenir, ça sera la grande question du siècle qui vient, avec les bio tech et tout ça.
Étienne Gernelle : À propos de résistance philosophique aux religions, est-ce que vous avez une résistance philosophique à ce que vient de dire Gaspard ?
Aurélie Jean : Je trouve l’idée très intéressante, cette idée de vendre de la donnée qui du coup n’est pas anonyme, qui est rattachée à une personne, un individu, une identité. En fait, j’ai quelque d’autre en plus de ça, que je trouve intéressant, c’est de rendre la donnée anonyme et de la rendre ouverte à tous, qui sont deux choses qui peuvent, pour moi, vivre en parallèle mais qui n’ont pas le même but. C’est-à-dire que ce que propose Gaspard est une manière, en fait, de développer un business modèle beaucoup plus juste et qui va peut-être s’auto-équilibrer de la donnée. À l’heure actuelle, il faut quand même s’en rendre compte, le marché de la donnée est un marché unilatéral ; il faut quand même s’en rendre compte ! D’ailleurs je le dis souvent aux gens. Quand aux gens je demande : « Quel est selon vous le client de Facebook ? », ils disent : « Eh bien c’est moi. » Je fais : « Non, ce n’est pas toi ! C’est le mec qui achète de la pub ». Et les gens ne s’en rendent pas compte. Donc c’est intéressant.
Moi, pour la donnée, en fait, j’aime beaucoup cette idée, parce qu’encore une fois ça remet à plat un business modèle qui a été fait de façon assez violente, assez rapide, et par des gens qui n’avaient pas forcément, peut-être, de bonnes idées à la base. Après, en parallèle de ça, je suis pour rendre la donnée anonyme et ouverte à tous. Ce serait un moyen aussi d’arriver à tacler, quelque part, les challenges techniques liés à la donnée tels que les biais, enfin tu sais exactement, voilà.
Guillaume Grallet : Ouais, on va en parler tout de suite. Monsieur Berry vous avez une expression que j’adore, vous dites qu’il faut s’emparer des problèmes avant qu’ils ne soient contrôlés par les autres. Est-ce que vous êtes d’accord avec l’approche de Gaspard ? Est-ce que vous pensez que c’est réalisable ?
Gérard Berry : Je suis d’accord avec l’approche à la base ; que ce soit réalisable, là, je pense que ce n’est pas du tout forcément vrai, de même que l’anonymisation parce qu’il y a des freins absolument majeurs qu’il faut bien connaître.
D’abord on a plusieurs problèmes sur le sujet. Il y en a un qui est absolument massif en ce moment, vous le suivez peut-être, qui s’appelle la sécurité informatique. Quand on se fait voler ses données en grand, ce qui arrive mais alors de façon triviale ! eh bien là, toutes les lois ne servent plus à rien, je dirais. Je donne deux exemples simplement :
Equifax, organisme de certification du crédit numéro 1 aux États-Unis, s’est juste fait voler 145 millions de données ; les données personnelles de 145 millions de clients aux États-Unis et probablement de 40 millions en Angleterre ; l’intégralité, c’est-à-dire le nom, l’adresse, le numéro de téléphone, le numéro de compte en banque et tout ça. Ce n’est pas anodin ! Ils ont mis plusieurs mois à le dire.
Uber vient de se faire voler les données, ne vient pas de se faire voler, vient d’admettre qu’il s’était fait voler en juillet les données de 57 millions de comptes, dont peut-être le vôtre, et, pour l’instant, ils ne se sentent pas obligés de dire de qui c’est.
Pour l’instant les gens sont rentrés dans le mou, parce que je ne sais qui dans cette salle a appris dans sa jeunesse quoi que ce soit sur l’informatique. Je pense qu’un médecin qui va être confronté à l’informatique tout le temps a eu exactement zéro seconde de formation sur le sujet. Donc, comme les gens ne comprennent pas le sujet, que les conditions générales d’utilisation, les fameuses CGU, sont de toutes façons incompréhensibles, qu’il faut juste cliquer dessus — avant il ne fallait même pas cliquer dessus, il fallait cliquer dessus si on ne les voulait pas, mais que de toutes façons ça ne marchera pas si on ne clique pas dessus — tout ça n’a aucun sens réel. D’accord ? Le premier obstacle c’est le maintien de l’ignorance. C’est-à-dire qu’on peut discuter très bien ; on dit on va protéger les données, il faut juste admettre qu’on ne sait pas faire ça.
L’anonymisation. Ah ! C’est un très vaste sujet ! Eh bien il n’est pas clair qu’on sache faire ça. Je donne un exemple. Les médecins ont besoin des données génomiques pour faire des très grandes études de big data. Pour le coup, les données génomiques ne sont pas trop fausses, parce qu’il ne faut pas oublier que les données sont largement fausses dans la nature.
Guillaume Grallet : Ça c’est un vrai sujet.
Gérard Berry : Par exemple quand on dit on va lire la littérature sur le cancer, comme fait Watson, la littérature médicale, il ne faut pas oublier que les médecins pensent qu’il y a environ au moins 25 % des papiers qui sont foireux, donc il faut faire attention.
Étienne Gernelle : Il faut nettoyer les données frelatées alors ?
Gérard Berry : Nettoyer les données c’est compliqué ! On est dans un monde qui est quand même difficile. La sécurité c’est difficile. Ce n’est pas que les gens sont spécialement mauvais, c’est que le problème est dur ; on ne sait pas vraiment le résoudre à l’heure actuelle. Donc l’anonymisation, c’est gentil, je ne sais pas comment on va faire pour anonymiser mon génome. Je pense qu’on sait me reconnaître.
Aurélie Jean : Vous avez entièrement raison, d’autant plus lorsqu’on s’intéresse à des données qui caractérisent votre identité. Ça je suis d’accord ; quand on s’intéresse à des données qui caractérisent votre identité.
Gérard Berry : Oui, mais regardez ça.
Aurélie Jean : Il y a déjà, je pense, un large panel de data qu’on peut rendre anonymes et qui nous permettent peut-être de mieux avancer sur ses propres données.
Gérard Berry : Ça c’est loin d’être sûr, parce qu’on sait croiser beaucoup de choses, donc quand on donne des données. Voilà ! Par exemple si on veut faire des statistiques médicales et qu’on dit on va enlever la date de naissance des gens, eh bien perd une information majeure, donc c’est difficile.
Aurélie Jean : Vous avez entièrement raison. Ce n’est pas assez. Vous avez entièrement raison et la médecine, je pense que c’est le cas le plus critique où, en fait, si on écarte les données ethniques, le genre, le sexe, on écarte complètement une donnée qui peut-être importante pour l’analyse en fait a posteriori des données.
Gérard Berry : Et puis je pense qu’il n’est pas très dur à l’heure actuelle, mais ce n’est pas fait parce que les gens ne veulent pas le faire, de faire une application qui, quand on arrive sur un clavier quelconque, dit : « Who am I ? », et qui répond : « Vous êtes Gérard Berry. » Je pense qu’on saurait faire ça, donc l’anonymisation ce n’est pas facile.
Aurélie Jean : En fait, quand je parle de rendre les data anonymes, c’est de ne pas affecter la donnée à une identité. C’est-à-dire Gaspard, on peut connaître tes données, à savoir que tu es un homme de tel âge — je ne dirais pas ton âge, je ne connais pas ton âge, je ne veux vexer personne !
Gaspard Koenig : Il est jeune ! Google le connaît !
Aurélie Jean : De telle nationalité, telle profession, mais ce ne sera pas Gaspard.
Gérard Berry : C’est très facile à croiser avec des tas d’autres.
Aurélie Jean : La corrélation est très facile, mais ça demande un effort supplémentaire.
Gérard Berry : Il faut vraiment analyser ce problème en détail, en grand, et c’est un problème technique, ce n’est pas qu’un problème philosophique. Il faut faire les deux en même temps, ce que vous faites de toutes façons, il faut faire les deux en même temps et ne pas penser qu’il suffit de décider de faire quelque chose pour que ce soit fait. C’est difficile.
Aurélie Jean : Complètement.
Étienne Gernelle : Gaspard n’est pas difficile à reconnaître, parce que, en France, il est le seul à peu près à penser ce qu’il pense.
Gaspard Koenig : Sur le problème de l’ouverture des données, de l’open data, faut-il être anonymisé ?, moi je reste extrêmement prudent, je me méfie énormément notamment des algorithmes qui, pour le coup, sont classés secret Défense, qui désormais, vous le savez, c’est l’article 2 de la loi renseignement, filtrent l’ensemble des metadata qui émanent des opérateurs téléphoniques français ; la NSA le faisait déjà pour les États-Unis depuis longtemps. Donc aujourd’hui, vous avez quand même une mainmise extrêmement inquiétante du pouvoir central, des GAFA aussi, mais aussi du pouvoir politique sur l’ensemble de nos données. D’ailleurs, dans ce rapport du Conseil d’État que je mentionnais, il faisait l’hypothèse de la patrimonialité des data, ce que je viens de vous dire, c’est quelque chose qui est étudié et il disait : « Oui mais quand même, ça serait très embêtant s’il y avait la patrimonialité des données parce le fisc et la police devraient justifier l’utilisation qu’ils font des data des utilisateurs. »
Et c’est ça qui est intéressant dans ce système de patrimonialité, c’est que si pour des raisons d’intérêt général — santé, police, fisc, etc. — vous voulez ouvrir les données, aujourd’hui vous ne vous justifiez devant personne à peu près. Avec un système de propriété privée, vous devrez justifier de quoi ? D’une expropriation ou d’une mise à disposition, qui est un sujet juridique qui existe, comme les lignes de train qui vont passer dans votre jardin parce que c’est d’intérêt général. Et du coup, c’est le juge judiciaire qui pourra contrôler que cette expropriation est proportionnelle à l’intérêt général recherché.
Donc au lieu de prendre toutes les données comme ça d’un coup en disant « oui, mais ne vous inquiétez pas, c’est pour l’intérêt général », s’il y a de la propriété privée des data les gens pourront dire « attendez, est-ce que vous êtes bien sûr que ce que vous faites est proportionnel, mesuré, etc. ? » Et c’est le juge judiciaire, j’insiste, et pas administratif, qui ira regarder ce qui se passe.
Donc ce système de droit de propriété, remettre le droit de propriété au centre du sujet de la data, a des conséquences sur la rémunération, mais a aussi des conséquences sur, par exemple, l’open data, et donc vous pouvez repenser, en fait, l’éthique de la data à travers le transfert des droits de propriété.
Étienne Gernelle : Sur le contrôle de la data par les citoyens.
Aurélie Jean : Et je pense qu’au-delà de la data, d’ouvrir la data, pour reprendre en fait la théorie de Tijmen Schep qui est un data scientist néerlandais et un grand activiste de la data et de la protection des données — je pense qu’il t’intéresserait énormément — et en fait il dit lui que au-delà des données, il faudrait ouvrir les algos ; je m’explique. C’est-à-dire que lui il considère, et il cite Deleuze pour ça donc c’est très intéressant, qu’il y a les lois et puis au-dessus il y a les choses un peu plus élevées qui vont conditionner nos actes quotidiens, qui est une morale religieuse, laïque, peu importe, mais il y a quelque chose. En fait, il dit : « Les textes de loi sont des choses qui sont complètement ouvertes. Personne n’est censé ignorer la loi parce que, quelque part, c’est ouvert. »
Étienne Gernelle : Ne peut ne pas la connaître.
Aurélie Jean : Ne peut. Voilà. Oui. Et en fait, lui ce qu’il dit c’est parce que les algorithmes, en fait, quelque part, recréent le tissu social de demain ce serait normal que les algorithmes publics ou privés — on en parlait avec Gérard Berry ce matin en disant que les algorithmes publics étaient déjà, on était obligé de les rendre publics — soient, doivent en fait, être accessibles par tous. Donc je trouve ça, en fait, très intéressant, d’autant plus que lorsqu’on dit ça à quelqu’un les gens pensent que l’algorithme c’est la clef, c’est un peu le pétrole, le cœur du pétrole en fait du business modèle de toutes les entreprises tech.
En fait, pas vraiment, parce qu’il y a la data, il y a l’algorithme et puis il y a ce qu’on en fait, l’implémentation dans le code informatique qui va définir quelque part aussi la réponse, la performance. C’est cette implémentation qui est vraiment un enjeu pour les entreprises. La preuve : des boîtes comme Google et Facebook publient dans des revues scientifiques leurs algorithmes. C’est intéressant. Je n’ai pas encore d’avis fort là-dessus, mais j’aime beaucoup cette idée de paralléliser, de mettre face à face les textes de loi et les algorithmes qui créent, en fait, le tissu social de demain et notre place dans la société, à chacun.
Étienne Gernelle : C’est l’histoire de la révélation dans les Tables de la loi.
Aurélie Jean : Voilà !
Guillaume Grallet : Il y a un autre aspect sur lequel on voulait vous entendre Aurélie, c’est sur les biais qui peuvent être utilisés par les algorithmes. C’est-à-dire qu’un algorithme n’est pas neutre, en fait.
Aurélie Jean : Oui. Mais je dis aussi souvent que les algorithmes ne sont pas coupables. C’est-à-dire qu’en fait ce qui se passe c’est que lorsqu’on parle de données — et c’est pour ça que l’open data c’est quelque chose auquel je suis très sensible parce que ça permettrait de minimiser les biais, je pense —, ces données vont nous servir à faire de l’analyse par un algorithme qu’on aura choisi et qu’on aura implémenté dans un code de calcul pour avoir une réponse, une prédiction, en tout cas une tendance.
Et ce qui se passe dans ces données, c’est qu’en fonction du type de données que vous allez choisir, que vous allez sélectionner, vous allez sûrement avoir des réponses différentes ; on parle d’échantillonnage. Et, en toute rigueur, lorsque vous faites un calcul, vous devez le faire sur plusieurs échantillons de tailles différentes, de natures différentes, pour pouvoir définir ce qu’on appelle la représentativité de l’échantillon et pouvoir faire un statement, de dire « mon échantillon est représentatif, il n’y a pas de biais ».
Dans la réalité, c’est beaucoup plus compliqué que ça. Et l’intelligence artificielle, en plus de ça, va, quelque part, renforcer, est un amplificateur des conséquences de ces biais pour la simple et bonne raison que l’on va développer des algorithmes qui vont être entraînés sur des données. Le biais initial des données va renforcer, en fait, ce que j’appelle la discrimination technologique à la fin du produit en sachant que certains utilisateurs vont être écartés de l’utilisation d’un produit parce que leur data n’aura pas été considérée en entrée. Donc l’open data c’est quelque chose qui m’intéresse beaucoup pour ça parce que je pense, j’espère en tout cas parce que ce n’a pas été testé complètement encore, qu’en fait, en ouvrant les données, ça veut dire qu’on aura beaucoup moins de contrôles sur la source, les gens pourront mettre leurs données, n’importe qui. Et on a aussi cette grande question de nos confrontations à l’aveugle, de benchmark où, en fait, les gens vont pouvoir aller prendre des données, les tester eux-mêmes. Les chercheurs le font, il y a eu un test très intéressant dans la ville de New-York pour ça où, en fait, la ville de New-York a une énorme plateforme d’open data où les gens vont mettre leurs données et les gens vont chercher des données pour les traiter, les analyser et on a vu des incohérences ; on a vu des biais, des incohérences, des mauvais fonctionnements dans la ville de New-York grâce à ça.
Donc je crois beaucoup à l’ouverture pour minimiser les biais et donc minimiser les discriminations technologiques.
Gaspard Koenig : Mais le problème c’est où est-ce que tu places le curseur de considérer que cette data est d’intérêt général ou non.
Aurélie Jean : C’est ça qui est compliqué.
Gaspard Koenig : Le problème de tous ces algorithmes c’est que, finalement, tu peux dire que tout est d’intérêt général.
Aurélie Jean : Bien sûr !
Gaspard Koenig : Par exemple réduire la consommation d’électricité globale, c’est d’intérêt général. Donc est-ce que ça justifie que j’ai obligatoirement un compteur Linky dans ma maison, qui fait que je suis lié au réseau en permanence, qu’on sait en permanence quelle est ma consommation d’électricité ? C’est optimal pour le bien-être du groupe mais c’est complètement intrusif.
Aurélie Jean : Tu as entièrement raison. Je comprends. En fait, quand tu dis ça, je dis beaucoup que tous les scientifiques et tous les développeurs ont, pendant très longtemps, fonctionné de façon logique. C’est-à-dire qu’on essaie d’avoir un raisonnement logique sur ce qu’on fait. Et je pense qu’on va tendre vers un fonctionnement analogique où on va devoir fonctionner par comparaisons, on va devoir s’ouvrir pour justement, exactement ce dont tu parles là : les scientifiques, les développeurs doivent se poser ces questions. Et ça va être un long processus. On est dans une vraie transformation de la discipline elle-même, de la manière dont on la réfléchit, dont on l’appréhende.
Guillaume Grallet : Gérard Berry qui voulait réagir.
Gérard Berry : Je crois que la publication des données et des algorithmes c’est un sujet important, mais il ne faut pas se leurrer, il y a des gradations. Par exemple les algorithmes de l’État doivent être publiés, c’est officiel. Des fois il y a de la résistance. Pour APB, le fameux algorithme APB [Admission Post-Bac ], il a fallu le tribunal administratif.
Guillaume Grallet : Qui était une catastrophe ; il faut les choses !
Gérard Berry : Mais l’algorithme n’est pas tout. D’abord il y a trois choses. On utilise des mots beaucoup trop faibles. Par exemple on parle de data sans algorithme, ça n’existe pas, ça ne fait rien la data sans l’algorithme, les données pardon, sans l’algorithme, ça ne fait rien !
Aurélie Jean : Vous avez raison.
Gérard Berry : La donnée souvent on ne la connaît pas bien, souvent elle n’est pas propre, en plus c’est compliqué à nettoyer, mais les algorithmes eux-mêmes il y a trois cas :
il y a ceux qui sont publiés, il y en a beaucoup qui sont publiés, y compris par les GAFA ;
il y a ceux qui sont complètement secrets, c’est-à-dire privés, à des sociétés
et puis il y a des intermédiaires. Les intermédiaires sont intéressants.
Par exemple les algorithmes qui font voler les avions sont certifiés — moi je le sais parce que nous on fabrique les outils pour faire ces algorithmes. Ils sont certifiés, ça veut dire que les avions d’Airbus ce n’est pas seulement Airbus qui décide qu’ils sont aptes à voler. Ce sont des organismes de certification internationaux, avec des méthodes très strictes qui peuvent être bien améliorées scientifiquement mais qui sont très strictes, et il y a peut-être des ingénieurs de Boeing qui vont vérifier les algorithmes d’Airbus. Ce n’est pas pour ça que c'est public, mais c’est très bien analysé, etc. Donc il y a des gradations. Et sur la sécurité c’est un peu pareil. Il y a des algorithmes de sécurité dans le monde et les gens disent : « Mais les algorithmes open, ouverts, sont meilleurs en sécurité », la réponse n’est pas forcément « vrai ».
Aurélie Jean : Ce n’est pas forcément vrai.
Gérard Berry : Ce n'est pas forcément vrai. On a trouvé des bugs absolument massifs dans des algorithmes de Linux tout à fait publics, qui ont déjà été scrutés. Le sujet est super dur, c’est ça qu’il faut comprendre, il ne suffit pas de décider pour y arriver.
Donc il faut trouver des bons moyens et des bons termes. Par exemple, un cas qui me déplaît profondément et là j’en ai plein, si vous lisez mon bouquin vous allez voir des pages de bugs absolument toxiques dans les automobiles, et le grand combat des constructeurs de l’automobile c’est de faire qu’il n’aient pas de certification. En fait, je pense que Renault, Peugeot et tout ça n’ont pas d’idée de ce qu’il y a dans leurs propres voitures, parce qu’ils n’ont pas forcément accès à ce que font leurs sous-traitants. Donc là, on est devant des problèmes qui sont dangereux parce que les voitures ça tue beaucoup plus que les avions, il ne faut pas oublier, et que là, désolé, l’informatique n’est pas de bonne qualité et personne ne s’en occupe.
Je vous en cite un quand même pour voir. Les pacemakers ont été analysés par une boîte de sécurité aux États-Unis ; pacemakers ce n’est pas rien ! Ils ont pris des pacemakers des quatre plus grands fabricants américains, ils les ont regardés de près, ils ont trouvé qu’il était très facile de pirater des pacemakers ; plus précisément que chaque pacemaker a des milliers de trous de sécurité, ce n’est pas tout à fait rien ! connus d’ailleurs à peu près tous. Les fabricants ont dit : « Ce n’est pas possible pour n’importe qui de le faire parce que la machine pour le faire, il n’y a que les médecins qui l’ont. » Les autres ont répondu : « On les a achetées sur eBay. » Voilà ! Donc la situation n’est pas très bonne parce que l’ignorance règne. Il faut s’occuper de ces problèmes. Et pour s’occuper de ces problèmes, je dirais, il ne suffit pas de lire les journaux, il faut se renseigner vraiment dessus.
Étienne Gernelle : Il faut lire les journaux quand même.
Gérard Berry : C’est bien de lire les journaux, ça commence.
Aurélie Jean : Je voulais parler de quelque chose qui me touche quand vous parlez d’ignorance, ça me touche beaucoup. Moi je crois que tout le monde doit comprendre un minimum ce qui se passe et comprendre les tenants et les aboutissants. La passerelle, pour moi, c’est de comprendre la technologie, d’avoir une plus grande culture scientifique là-dessus et je pense que c’est quelque chose qui devient de plus en plus critique. C’est-à-dire qu’on doit devenir ce que j’appelle des utilisateurs éclairés des technologies, on ne doit pas seulement utiliser une technologie de façon aveugle, parce qu'on doit se rendre compte, en fait, de comment ça fonctionne, des biais bien évidemment, et ça, vraiment pour moi c’est quelque chose de profond si on veut aussi avancer et que tout le monde puisse faire avancer le débat sociétal sur ces sujets.
Guillaume Grallet : Ce qu’on appelle en bon français la digital literacy. Il y a le débat sur ce qu’il faut rendre public ou non ; il agite au cœur même des GAFA. J’ai été assez surpris, à l’intérieur même de Facebook il y a une vraie querelle quasiment idéologique entre Yann LeCun, le grand chercheur universitaire qui s’occupe de l’intelligence artificielle, un Français qui est basé à New-York, qui lui rend la quasi-totalité de ses recherches disponible sur Archive et puis une personne comme Regina Dugan, qui a été embauchée par Facebook et qui vient de la DARPA et qui, elle, ne rend rien disponible, rien public.
Étienne Gernelle : La DARPA [Defense Advanced Research Projects Agency], Guillaume, on précise c’est le département de recherche.
Aurélie Jean : De l’armée.
Étienne Gernelle : De l’armée américaine.
Guillaume Grallet : C’est vraiment très intéressant parce que c’est un débat qui nous agite. Je voulais juste reposer une question à Gaspard : si on arrive à reprendre le contrôle de nos données, cette fameuse propriété, est-ce qu’il n’y aura pas une dichotomie entre les données des riches, les données des pauvres ? C’est-à-dire est-ce qu’il n’y aura pas une inégalité par rapport à tout ça ?
Étienne Gernelle : Il n’y a que les riches qui vont garder leurs données et les pauvres qui vont les vendre.
Gaspard Koenig : Non ce seront des choix, des arbitrages de consommation. Effectivement si vous voulez payer, vous devrez payer pour votre privée ça c’est clair, pour garder votre vie privée. Ensuite c’est un arbitrage de consommation de savoir si oui ou non on est prêt à payer. Ensuite, savoir si les revenus sont également distribués dans la population, c’est une autre question qui n’a rien à voir avec notre sujet.
Deuxièmement, je reprends l’exemple de la voiture, qui est quand même intéressant sur l’idée patrimoniale des données, je ne peux plus acheter une voiture aujourd’hui, d’ailleurs c’est pour ça que je garde ma vieille voiture, je ne peux plus acheter une voiture non connectée aujourd’hui ; c’est impossible. Vous achetez une voiture, vos données, votre vitesse de freinage, tous vos déplacements, toutes vos infractions au code de la route, etc., sont immédiatement envoyées à Volkswagen ou à Tesla qui peut réguler ses systèmes en fonction. Moi je veux pouvoir, quand j’achète une voiture, payer davantage pour garder la propriété des données qui seront produites par cette voiture et pouvoir quand je veux me connecter au réseau pour dire là j’ai un problème, là il y a un accident, etc. Ou à l’inverse, payer moins cher ma voiture — mais ce sera pareil avec les assurances santé — parce que j’accepte que le constructeur utilise mes data comme il le souhaite.
Mais sur les riches et les pauvres, ça ré-ouvre cette question des riches et des pauvres. Votre valeur par rapport aux data et aux plateformes n’est pas liée à votre niveau de richesse. Il est lié à ce que vous entendez partager de votre environnement quotidien. Je prends un exemple : Waze, on reste dans les transports, vous savez la plateforme d’optimisation du temps de trajet : vous dites où vous voulez aller et on vous donne le trajet le plus court qui est renseigné par les géolocalisations des autres utilisateurs. Je ne peux pas utiliser Waze sans accepter de fournir ma géolocalisation ; c’est comme ça que je rémunère Waze aujourd’hui. Mais le problème c’est que Waze offre le même service à moi qui utilise ma voiture toutes les trois semaines et qui donc ne lui apporte rien et à un chauffeur de camion qui utilise Waze 8 heures par jour et qui donc a une valeur énorme pour Waze. Si vous avez une patrimonialité des data, le chauffeur de camion sera rémunéré bien davantage que moi pour utiliser la plateforme. Et à l’inverse, moi je pourrais payer pour pouvoir utiliser Waze sans fournir ma géolocalisation.
Chacun pourra arbitrer ses choix, mais, encore une fois, notre valeur correspond à l’environnement dans lequel on est et à l’intérêt de cet environnement pour telle ou telle plateforme, mais pas du tout forcément à notre niveau de vie, à notre catégorie socioprofessionnelle.
Étienne Gernelle : La question c’est est-ce qu’on a le niveau ? Moi si on me demandait ce matin « arbitre entre ce que tu veux donner et ne pas donner », je ne suis pas sûr d’en être capable.
Aurélie Jean : D’où l’éducation ; c’est-à-dire qu’on doit sortir de l’ignorance.
Gaspard Koenig : Aujourd’hui tu cliques sur des conditions d’utilisation que personne n’est capable de lire. Ça ne peut pas être pire, déjà ! Et deuxièmement, je pense que quand il y a aura un peu d’argent en jeu, je m’excuse d’être cynique, l’éducation va se faire beaucoup plus vite. C’est-à-dire que quand les jeunes vont s’apercevoir que tout d’un coup ils peuvent toucher 100 euros pour être sur Facebook, ils vont se dire « tiens, mais en fait ça avait de la valeur ce truc ! » Donc ils vont très vite comprendre que ça a de la valeur et ça aura un effet éducatif très fort, un effet de prise de conscience très fort.
Et ensuite, sur la négociation des contrats avec les grandes plateformes, il est évident que si on met ce système en place il y aura des grands intermédiaires qui vont se créer, comme les sociétés de gestion des droits d’auteur en fait, pour le droit de la propriété intellectuelle et qui vont dire « moi je prends 50 millions d’utilisateurs, je les négocie avec Facebook et ensuite je vous fais à chacun un smart contrat en fonction de vos propres termes » ; chacun ne va pas aller négocier avec les géants, bien sûr.
Étienne Gernelle : Gérard Berry.
Gérard Berry : Sur le principe je suis d’accord, mais malheureusement ça risque de n’être pas si simple. D’abord parce que j’aimerais bien savoir qui, dans cette salle ou ailleurs, a conscience de ce qui se passe. Par exemple Gaspard dit : « Moi je ne veux pas une voiture connectée. » C’est pas de chance, parce que son téléphone fait déjà ça. Il n’y a pas besoin de la voiture pour savoir comment il conduit, le téléphone fait déjà ça. Donc n’achetez pas un Android parce que Android, quand vous ouvrez le GPS sur quelqu’un, vous l’ouvrez sur toutes les applications, donc n’importe qui peut lire.
Par ailleurs, comment un juge va-t-il savoir qui fait quoi. Ça, ça va être assez dur. Déjà qu’un juge comprenne un code, ça ne s’est pas fait. Non mais c’est vrai !
Étienne Gernelle : Est-ce qu’il y a un juge dans la salle ?
Gérard Berry : Il y a déjà pas mal de cas ; j’ai participé à des cas, c’est assez rigolo, mais c’est extrêmement compliqué. D’autre part le code change tout le temps ; on n’arrête pas de vous faire des mises à jour, donc vous ne savez même pas quelle version vous aviez du code quand vous faisiez le machin. Donc ça va être extrêmement compliqué à identifier qui fait quoi, quand.
Par exemple quand je dis que — on a un peu les infos — mettons il y a une soixantaine de sites qui regardent comment vous tapez sur votre clavier, qu’est-ce que vous tapez, qui sont capables de faire des replay, moi, à l’heure actuelle je n’ai pas le moyen de savoir qui c’est. OK ! Et on n’a pas la techno pour savoir qui c’est. Donc la chose entre ce qu’on envie de faire, avec laquelle je suis totalement d’accord, et le fait qu’on va arriver, avec des gens qui sont invérifiables, des codes qui viennent de pays dans lesquels on n’a aucun droit, qui changent tout le temps, ça va être difficile ! Ça va être difficile !
Aurélie Jean : Je comprends, mais je pense qu’il faut aussi, peut-être, entrer dans cette phase d’expérimentation, même à petite échelle d’ailleurs. C’est marrant, parce que dans l’histoire de l’humanité à chaque fois qu’on a parlé de vendre quelque chose on parlait aussi, systématiquement en premier, des dérives mercantiles. Je pense que tu dois l’entendre très fréquemment. Non ? Ah bon, c’est étrange. Moi j’aime bien cette idée de tester à petite échelle, de voir ce qui se passe et peut-être de « scaler » tout en adaptant le modèle en cours de route, si ça marche.
Gérard Berry : Une très bonne idée, ce sont des gens qui à l’heure actuelle s’engagent à ne pas distribuer des données, comme le moteur Qwant1, par exemple.
Aurélie Jean : Qwant fait ça.
Gérard Berry : Qwant s’engage, et sérieusement, et donne des moyens de vérifier qu’il ne publie pas les données. Ça c’est bien et je pense qu’il faut vraiment soutenir ce genre d’action parce là on ne dépend pas de gens qui ne disent pas ce qu’ils font.
Aurélie Jean : C’est français.
Gaspard Koenig : Moi j’utilise DuckDuckGo, par exemple. Et d’ailleurs toute cette prise de conscience est venue un peu grâce à toi Étienne, puisque tu fais des reportages pour Le Point et un de ces reportages c’était d’aller voir les hackers à Berlin. Et les hackers font ce qu’ils appellent des CryptoParties2, donc c’est hackers éthiques, hackers gentils.
Étienne Gernelle : Surtout moi.
Gaspard Koenig : Et donc les CryptoParties, ils vous annoncent deux heures avant que ça aura lieu dans l’arrière-salle d’un restaurant polonais dans Berlin-Est. On va là. Tout d’un coup il y a 15 ordinateurs très sophistiqués, on arrive, et des hackers vous prennent en main en fonction de votre niveau d’éducation pour vous protéger, vous donner des outils pour vous protéger. Moi quand je suis arrivé il y a un hacker, je me suis assis avec un hacker, c’est comme ça, c’est complètement libre, et il m’a dit : « Dessine-moi Internet ». C’est comme Le Petit Prince ; c’est drôle. J’ai essayé de dessiner ; il m’a dit ce n’est pas ça, il m’a expliqué, et après, en une heure, il m’a enlevé la géolocalisation, mis un petit autocollant sur mon ordinateur parce que n’importe qui peut actionner la caméra à tout moment comme vous savez, installé Tor qui est un moteur de recherche [navigateur,3 NdT], ce n’est pas du tout le darkweb Tor4, qui vous permet d’accéder aux sites classiques, mais sans dévoiler votre adresse IP, en tout cas en compliquant le chemin. Il m’a installé un VPN [Virtual Private Network]. Bref ! En une heure, j’avais déjà des outils de protection que, je pense, 99 % de la population n’a pas, et j’utilise DuckDuckGo comme moteur de recherche. Ou, par exemple, Telegram ou Signal au lieu de WhatsApp. Donc c’est important déjà de le faire chacun d’entre nous.
Je voulais signaler qu’il existe quand même déjà justement des outils, comment dire, qui commencent justement à tester la patrimonialité de la data, c’est l’idée de la start-up que vous avez reçue hier. Il y a aussi quelque chose qui est assez amusant, vous pouvez le charger sur votre Facebook, qui s'appelle le Facebook Data Valuation Tool qui est en fait une espèce de petite application qui calcule en temps réel les profits que fait Facebook avec les posts que vous envoyez. Vous envoyez un post avec des images et il calcule l’argent que touche Facebook. Parce que si vous divisez les revenus publicitaires de Facebook par le nombre d’utilisateurs, c’est dix dollars par personne et par an. C’est-à-dire que finalement pour dix dollars — il faudrait faire des analyses de marché plus précises — ça veut dire que grosso modo le prix de ce que vous donnez à Facebook c’est dix dollars. En fait ça vaut beaucoup plus que ça ! C’est pour ça que Facebook fait des profits gigantesques. Alors que, à l’inverse, vous devriez pouvoir payer dix dollars à Facebook pour l’utiliser sans qu’il retraite vos données.
En fait, ça a des conséquences morales aussi sur les biais. Puisque là on a tous ces biais, parce que comme les données sont envoyées, eh bien elles nous reviennent via la pub et donc on est dans cette filter bubble comme on dit, dans cette bulle où on ne voit que ce qu’on veut voir, on n’entend que ce qu’on veut entendre, etc. D’ailleurs moi je suis absolument effrayé quand je vois ce que me propose Deezer, il me propose Madonna et Britney Spears, je me dis que j’ai des filter bubbles atroces ! Il faudrait voir l’algorithme, il faudrait le dévoiler. Donc cet effet de filter bubble, de bulle de filtres, si vous commencez à avoir un marché de la data, va se dissiper et la pub va sortir du centre du business modèle ce qui, de toutes façons, est dans l’intérêt de ces plateformes parce que maintenant, de plus en plus, les gens utilisent des adblockers et la pub ne marche plus, puisque la pub est devenue quelque chose de répulsif. Donc ils vont bien devoir inventer un modèle et quoi de plus simple que de revenirfinalement à un marché classique, bilatéral, où il y aura un utilisateur qui paiera pour un service.
Guillaume Grallet : C’est super intéressant. Et effectivement la démarche d’arrêter d’être le produit de ces services en échange de la gratuité, tout le monde, je pense, ici est d’accord. J’avais une question pour vous, Gaspard, c’est est-ce que vous avez déjà commencé à parler aux GAFA ? Est-ce que vous n’anticipez pas une énorme réaction de leur part quand on voit l’armée de lobbyistes qui sont à Bruxelles, par exemple ? Ce n’est pas pour rien, d'ailleurs, que le Danemark a nommé un ambassadeur spécialement pour parler aux GAFA au nom du gouvernement danois. Est-ce que tu ne crois pas qu’ils vont… ?
Gaspard Koenig : D’abord on attend la publication du rapport pour vraiment aller les voir, parce que, pour le moment, on n’a pas grand-chose.
Je sais que Microsoft est très ouvert sur le sujet mais eux ne sont pas tout à fait dans la situation de Facebook ou Google, mais enfin, on voit qu’ils sont ouverts. En fait, je pense qu’ils vont être de plus en plus ouverts au sujet pour une raison très simple, c’est que puisqu’on n’a pas la patrimonialité, on a le GDPR, le règlement européen qui veut protéger les données des utilisateurs, avec une norme pour tout le monde. Et ça, ça va coûter très cher aux plateformes parce qu’elles vont devoir dépenser des sommes incroyables pour être en conformité, pas seulement les plateformes mais aussi toutes les petites boîtes, les petites start-ups, et deuxièmement elles vont se prendre des amendes colossales, je ne sais plus, c’est jusqu’à 4 % du chiffre d’affaires. C’est vraiment énorme ! Donc elles vont se dire finalement est-ce qu’on continue dans cette voie où on pille les données et on rend l’argent à l’État ? Parce qu’on va se faire matraquer, parce que forcément il va y avoir 15 activistes qui vont faire des procès tous les jours, ça va judiciariser les processus, qui vont dire vous avez mal utilisé ma data, et forcément à un moment donné ça va arriver, on va devoir payer. Ou est-ce que, finalement, on n’a pas plutôt intérêt à négocier ça directement avec les utilisateurs, quitte à perdre un peu d’argent, à acheter leurs data et ensuite, une fois que la data est achetée dans le respect des termes contractuels, c’est là qu’effectivement le travail du juge peut être compliqué mais enfin voilà, eh bien là j’en fais ce que je veux, à partir du moment où je respecte les termes du contrat. Je pense qu’en fait, à terme, ils peuvent trouver un intérêt.
Aurélie Jean : Dans la vente de la donnée aussi il y a quelque chose dont il faut avoir conscience c’est la durée. C’est-à-dire que la data c’est quelque chose qui est, bien évidemment, intangible et qui peut rester sur des temps infinis, donc il y a aussi cette question de pendant combien de temps la data est utilisée ; pour combien de temps on la vend, si on la vend. Parce que c’est quelque chose qui est très peu abordé : que devient la data ? Est-ce qu’elle est effacée à un moment donné ? Est-ce qu’on ré-alloue la mémoire ?
Étienne Gernelle : Est-ce qu’elle est mortelle ? Gérard Berry ?
Aurélie Jean : Oui, voilà.
Étienne Gernelle : Est-ce que nos data sont mortelles ?
Gérard Berry : Il y a un vrai problème pour le droit à l’oubli c’est que, comme toutes les fermes de calcul, j’aime bien le mot « ferme » — on utilise souvent le vocabulaire agricole, on dit sur le champ, à tout bout de champ et ferme de calcul où on élève des ordinateurs —, mais les fermes de calcul ont des tonnes de sauvegardes sur des bandes magnétiques et je ne sais pas très bien ce que veut dire oublier. Ce n’est pas une notion qui est très facilement définissable, mais c’est une notion qui est importante.
Aurélie Jean : Et même techniquement.
Étienne Gernelle : Techniquement, c’est périssable ou pas ?
Aurélie Jean : La donnée n’est pas effacée complètement.
Gérard Berry : Par exemple, si vous mettez une photo dans Facebook et que vous voulez l’enlever ça va être assez dur parce qu’elle a peut-être déjà été extraite par 100 000 personnes, sur des ordinateurs individuels.
Guillaume Grallet : Même si, quand on l’efface, ça reste la propriété de Facebook.
Gérard Berry : Non, non, ça reste la propriété des deux ; Facebook n’est pas le seul propriétaire. Par ailleurs, qui réalise que dans la photo qu’il a mise sur Facebook, il y a marqué exactement quelle heure il était, exactement où ? D’accord ? Est-ce que les gens savent ça ? Ce n’est pas du tout évident pour moi. On ne peut pas traiter de ces problèmes sans commencer par essayer de les comprendre. On n’a pas encore commencé à essayer de les comprendre. Je ne parle pas de lui, je parle de la population. Parce que les gens se disent « moi je n’y comprends rien ».
Eh bien moi je n’y comprends rien. J’ai écrit un petit article pour Les Échos qui était rigolo. Vous savez, les hôpitaux anglais se sont fait crypter leurs données, le rançonnage. OK ? J’étais à Londres en mars et il y a un des grands hôpitaux de Londres qui a été obligé d’enlever tous ses patients de l’hôpital ; enlever sous ses patients, y compris ceux qui sont dans des états infernaux. Pourquoi ? Parce qu’ils s’étaient fait tout crypter. Bon, ils tournent sur Windows XP, il faut être con, mais c’est comme ça ! Je vous signale quand même que la police londonienne vient de décider de passer de Windows XP à Windows Vista ; ça c’est exceptionnel ! Ça montre que l’ignorance est quand même assez répandue ! Comme disait Jean Vilar : « La culture coûte cher, essayez donc l’ignorance ! » Toutes les données de l’hôpital avaient disparu donc ils ne pouvaient plus rien faire. Ils se sont fait attaquer en grand, aux États-unis aussi ; Saint-Gobain perdu 300 millions d’euros sur cette attaque WannaCry5, ce n’est pas tout à fait rien. Donc ce n’est même pas sûr qu’on sache se protéger vraiment. C’est-à-dire que monde est plus dur que simplement ce qu’on pense.
Moi j’ai décidé que ce n’était pas grave ce que je faisais, mais je suis dans le public, ce que je fais est public. Je pense que tout le monde ne prend pas cette décision.
Étienne Gernelle : Pardon Gérard Berry, mais techniquement, une donnée n’est pas dans le nuage ; le nuage n’existe pas, derrière il y a toujours un serveur. Donc il y a du hardware, il y a du matériel. Il y a un morceau de plastique, de bande magnétique, je ne sais pas. Est-ce que ces données-là vont être stockées ad vitam æternam, est-ce que ça ne risque pas de coûter trop cher ? Est-ce que ça se dégrade ? Est-ce que, concrètement, si, dans dix ans, ma petite amie arrive à retrouver où j’étais tel jour grâce à mes comptes Uber, elle peut encore me dire « tu étais avec qui là ? »
Gérard Berry : C’est difficile à savoir parce que les données se dégradent, mais on peut faire avec l’information quelque chose qu’on ne peut pas du tout faire avec la matière, c’est la répliquer gratuitement, à l’infini. Imaginez que vos données sont dans une ferme de calcul ; vous ne savez pas ce que c’est qu’une ferme de calcul, parce que dans une ferme de calcul il y a des milliers d’ordinateurs qui tombent en panne tous les jours et ça n’a aucune importance.
Étienne Gernelle : Et l’obsolescence des programmes, des langages ? Le remplacement ? Finalement les données qu’on a sur nos vieux ordinateurs ? J’avais Windows 95 bêta, j’ai eu un mal fou à récupérer les données sur mon vieil ordinateur.
Gérard Berry : À l’époque on ne faisait même pas les specs. Mais maintenant une donnée JPEG on sait exactement ce que sait, on saura la relire dans arbitrairement longtemps, parce que JPEG c’est totalement connu ; à l’époque on ne savait même pas comment c’était codé.
Étienne Gernelle : On n’aura même plus besoin de la pierre de rosette quoi !
Aurélie Jean : Dans ce que vous dites en fait, Étienne, c'est intéressant parce que par exemple ça en termes d’ignorance et je ne dis pas que vous êtes ignorant !
Étienne Gernelle : Moi je vous le dis, je n’ai aucun problème avec ça, c’est même mon métier, je suis journaliste !
Aurélie Jean : Ce que je dis c'est que par exemple de savoir comment la donnée est stockée et qu’est-ce que ça veut dire d’effacer une donnée. Parce qu’il y a différents moyens d’effacer une donnée. La donnée est stockée de différents formats mais en tout cas, à la fin, ce sont ce qu’on appelle des cases mémoires qui sont remplies d’informations qui vont toutes ensemble représenter une donnée, une image, une phrase, peu importe, et en fait, la manière dont on va effacer la donnée, parce que effacer ne veut rien dire : on peut soit remplacer ce qu’il y a dans les cases mémoires et mettre ce qu’on appelle crap, n’importe quoi, n’importe quel chiffre ; soit on peut ne pas changer la donnée dans ces cases mémoires et plutôt couper l’accès, perdre en fait l’adresse qui va dans la case mémoire. Et ça, en fait, c’est très différent technologiquement parce que si on décide d’effacer l’adresse mémoire, de dire cette donnée elle pointe dans telle case mémoire, quelque part la donnée est toujours là.
Gérard Berry : Bien sûr !
Aurélie Jean : Oui, mais c’est une différence critique, parce que quand les gens disent « on efface votre donnée », moi la première chose que je dis c’est « qu’est-ce que vous faites ? Vous effacez l’adresse sur la case mémoire, ou vous remplacez ce qu'il y a dans la case ? » Parce qu’il y a toujours quelque chose dans la case mémoire. De dire « qu’est-ce que vous mettez dans cette case mémoire », et rien que ça, en fait, c’est très intéressant parce que même si on efface l’adresse vers la case mémoire, quelqu’un qui n’est pas trop mauvais en informatique pourra retrouver la donnée.
Étienne Gernelle : C’est terrifiant !
Gérard Berry : Rassurez-vous, en plus, si vous tapez sur « effacer » sur n’importe quel ordinateur, ça n’efface pas.
Aurélie Jean : Voilà, ça n’efface pas, c’est important.
Gérard Berry : Ça c’est clair. Et heureusement d’ailleurs, parce que j’ai des tas de copains qui m’ont dit : « Ça y est j’ai effacé par erreur ma carte de mémoire où j’avais toutes mes photos. » Je dis : « Aucune importance, on la met dans une machine qui retrouve tout instantanément », donc ce n’est pas un problème. Et je vous rappelle qu’il y a un célèbre responsable français qui pensait avoir effacé son disque, il avait juste tapé sur « effacer » et il a été complètement pris par tout ce qu’il y avait dans son disque qui était totalement lisible.
Eh bien oui, je veux dire si on ne comprend pas un minimum d’informatique, ce qui est quand même le cas ! Le nombre de choses à comprendre n’est quand même pas négligeable, donc on a décidé de ne pas l’enseigner ! Vous savez, les cours d’informatique au lycée qui reprennent maintenant, l’État français a décidé d’arrêter l’enseignement de l’informatique en 1997, au moment où Internet explosait. C’est ce qu’on appelle de la prescience.
[Rires]
Étienne Gernelle : On va donner la parole au public. Est-ce que vous avez des questions ? Je vois, il y a un jeune étudiant, spécialiste des grands singes. Voilà. Pascal Picq.
Pascal Picq : Merci. C’est très bien on parle des GAFA et tout ça. J’aimerais bien quand même, parce que je suis moi aussi assez ignorant mais je lis quand même la presse, et quand on lit dans le Courrier international que monsieur Jack Ma qui est celui qui dirige Alibaba, donc un des trois géants chinois — dans les débats en France, on ne parle que des GAFA, on ne parle jamais des géants chinois - eh bien monsieur Jack Ma, en plein 19e congrès du Parti communiste a dit : « Grâce aux data et aux algorithmes on va pouvoir réaliser le projet du Parti communiste. » Donc les BATX, c’est-à-dire les trois géants chinois plus les autres, Xiaomi, c’est Confucius et Confucius ce n’est pas la tarte à la crème des bêtes aryennes de la Californie.
En plus de ça l’équivalent de l’Arcep aux États-Unis vient de prendre une décision effectivement sur le contrôle des données ; vous connaissez ça mieux que moi.
Mais il y a des enjeux quand même de démocratie absolument énormes. Tu as raison, Gérard, de dire qu’on peut avoir un fichier, mais en fonction de vos comportements, vos déplacements, votre voiture, de toutes façons on vous retrouve immédiatement ; c’est immédiat ! Donc voilà la question qui se pose aujourd’hui à nos démocraties. C’est qu’en effet tout internaute chinois est complètement identifié, noté, répertorié, c’est la première chose. Et la deuxième chose c’est qu’aujourd’hui une élection démocratique, c’est-à-dire au suffrage universel, se gagne dans la capacité d’avoir les bonnes data et d’aller chercher les données et les personnes qu’on va solliciter, donc épouiller dans mon jargon de grand singe. C’est-à-dire que aujourd’hui nos élections se gagnent sur quelques milliers ou dizaines de milliers de data. Et ça je suis effaré que ces enjeux, qui sont quand même des acquis de notre histoire, récents et difficiles à maintenir, soient très peu évoqués dans la presse et même notamment par rapport à monsieur Jack Ma, quand même, qui nous dit cela.
Étienne Gernelle : Les Californiens et les libertariens ont été interpellés, donc c’est vous deux.
Aurélie Jean : Je voulais juste répondre. J’ai envie d’écouter Gaspard là-dessus justement. Juste pour dire une chose importante parce que ce que vous dites est très intéressant, ce sont les menaces sur la démocratie. C’est-à-dire quelque chose qui est un peu abordé mais pas suffisamment à mon sens, c’est de dire en fait que les grands géants de la data ont des chiffres d’affaires qui sont de l’ordre de budgets étatiques. Ce sont des gens puissants, des institutions puissantes et, là encore hier j’étais dans la rue et je vois sur la Une d’un magazine dont je ne citerais pas le nom puisque ce n’est pas Le Point qui avait en titre « Mark Zuckerberg, le prochain président des États-Unis ». Je ne sais pas si j’ai envie d’avoir Mark Zuckerberg comme président, parce que j’habite aux États-Unis. Je ne sais pas ! Mais c’est une question intéressante parce qu’ils ont une influence de plus en plus forte et je suis productrice d’algos et de data, ce que je veux dire c’est que je suis de leur côté au sens position technologique.
Public : Mark Zuckerberg a dit : « On a décidé de ne pas intervenir dans l’élection en Allemagne. »
Aurélie Jean : « On a décidé » ; ça veut dire que dans d’autres cas ils l’ont fait. C’est intéressant. En fait c’est ce que je dis aux gens, je dis « regardez ces géants, encore une fois je suis frappée, ils ont des chiffres d’affaires qui sont de l’ordre d’un budget étatique. Réfléchissez à ça ; c’est intéressant. »
Gaspard Koenig : Juste en deux mots. Sur la Chine, complètement d’accord. J’avais été en Chine interviewer une sorte de dissident, ils savaient tout, ce que je faisais, où j’étais ; on ne peut absolument rien cacher, d’ailleurs on n’a pas accès à Twitter, on n’a pas accès à… c'est absolument terrifiant. C’est pour ça d’ailleurs que quand notre William, William Elong montrait son drone tout à l’heure, lui il parlait des applications sympathiques, pour aller chercher des victimes. Imaginez ce drone dans la main du gouvernement chinois, qui y sera de toutes façons très bientôt, et il peut continuer à augmenter ses moyens de contrôle de la population à tel point que, vous savez ce qu’ils sont en train d’expérimenter en Chine ? C’est un système de notation sociale, ça c’est le pire du pire du pire, qui amalgame toutes vos notes. C’est-à-dire que quoi que vous fassiez, si vous faites la cuisine à vos amis, ils vous notent ; si vous avez des bonnes notes à la fac vous avez une note etc. Toutes ces notes sont agrégées et vous font une notation sociale et cette notation sociale vous permet d’avoir des crédits à la banque, de demander des visas, etc. Donc ça c’est vraiment le socialisme pur. Donc la Chine est en train de construire, effectivement, un régime complètement communiste avec des outils numériques qui ne sont pas, en soi, des outils démocratiques.
Après, sur la question de Zuckerberg, du trafic des élections et tout ça. Je n’ai pas un avis très déterminé, mais j’ai tendance à dire que s’il y a ces problèmes c’est aussi parce que les démocraties représentatives, de toutes façons, ne sont plus du tout faites pour l’âge numérique. Élire des représentants c’est aussi fou que d’avoir des magasins où on va acheter ses provisions au lieu de les commander sur Amazon. C’est-à-dire que l’idée d’intermédiation est contestée dans tous les secteurs : dans les commerces, dans les services, dans la connaissance. Donc évidemment elle va être contestée sur le plan politique. Continuer à élire des présidents et des députés, je pense, n’a plus tellement de sens et ne correspond plus à la manière dont les gens vivent, y compris leur participation à la vie publique. Il y a des nouvelles formes qui sont en train d’être pensées, la démocratie liquide en est une, avec des blockchains comme d’habitude, qui permettent de reconstruire l’imaginaire démocratique avec le numérique. Mais de toutes façons la tension est trop grande entre les systèmes représentatifs classiques et la fluidité numérique pour, indépendamment même du problème du hacking, des trolls et tout ça, pour que les deux puissent cohabiter très longtemps.
Gérard Berry : Je pense que c’est effectivement très important. On a à évaluer, en fait, un rapport coût-bénéfice. C’est toujours comme ça parce que l’informatique fait des choses absolument fantastiques, pas que les données. Il faut comprendre que le big data, à l’heure actuelle en informatique, c’est tout petit par rapport au reste, il ne faut pas oublier. Je vous rappelle 80 milliards de microprocesseurs par an produits, moins de deux milliards dans les ordinateurs et les téléphones. Donc le reste c’est 78 milliards.
C’est vraiment très intéressant. Il y a deux références, pour moi, vraiment intéressantes à lire, c’est Le temps des algorithmes de Serge Abiteboul et Gilles Dowek, qui est un livre très intéressant, qui discute beaucoup de ça et Terra Data qui est un livre aussi de Serge Abiteboul et Valérie Peugeot, qui est tout récent, qui parle, lui, des données et de beaucoup de ces problèmes. Il en parle de façon très mesurée, c’est-à-dire en comprenant bien les risques, les avantages, les inconvénients et tout. Donc les deux trucs dangereux c’est de croire, comme Silicon Valley, que c’est miraculeux, et de croire que ça déconne. Non, il faut être entre les deux et, de toutes façons, on va vivre avec. Je veux dire vous pouvez décider ce que vous voulez, ce n’est pas ça qui fera quelque chose.
Sur la démocratie dans Le temps des algorithmes, il dit un truc très intéressant : « Si on parle en termes d’information, combien de bits un homme fabrique-t-il pour la démocratie ? Eh bien en gros, il y a une élection tous les ans à peu près, on va choisir entre quelques candidats. En gros, c’est entre un et deux bits par an, la contribution d’un citoyen à la démocratie. » Il y a sûrement des idées pour faire mieux. Et ça, c’est vraiment important.
Mais encore une fois, si on reste collectivement dans l’ignorance, c’est-à-dire que là on cause autour de, et c’est pour ça je dis, moi j’explique toujours, c’est pour ça que les gens ont changé le mot « informatique » en mot « numérique » ? Pourquoi ? Parce que les gens ne savaient pas ce que voulait dire informatiques, mais en changeant le mot ils sont tous devenus compétents. D’accord ? Et maintenant c’est « intelligence artificielle », ce n’est plus numérique, c’est fini, c'est intelligence artificielle. Donc changer le mot permet d’éviter de rentrer dans le sujet, mais il faut rentrer dans le sujet.
Étienne Gernelle : Une autre question. Il y a pas mal de questions ; la dernière.
Public : Aidez-nous à rentrer dans le sujet, Monsieur Berry ! Aidez-nous à devenir moins ignorants ! Je pense que vous avez plein d’idées pour ça. Je pense que vous n’êtes pas un grand utilisateur des réseaux sociaux, enfin je fais une hypothèse, mais peut-être allez-y et je suis sûre que vous allez faire le buzz si vous aidez les utilisateurs et si vous les alertez en disant « soyez moins ignorants » ; faites des petits formats, effectivement, parce qu’on sait que personne ne lit les clauses. Moi j’ai essayé un jour, ça prend énormément de temps. Qui a le temps aujourd’hui ? Je pense que vous avez plein de solutions à nous donner.
Gérard Berry : Je pense que c’est une très bonne question ; on essaye. Alors il se trouve qu’il y a eu un gros défaut des informaticiens français c’est qu’ils n’ont pas parlé au public. Les astronomes parlent au public, les physiciens parlent au public, les informaticiens étaient dans leur monde et tout. On essaye. Les trois livres dont je vous ai parlé, ils essayent exactement de faire ça. La Société informatique de France utilise beaucoup de choses là-dessus, et l’informatique rentre dans l’éducation. C’est dans l’éducation que ça se passe, c’est évident. Par exemple vous regardez les bouquins qui s’appellent Class'Code qui sont faits par La Main à la pâte pour apprendre à programmer à vos gamins, ils sont parfaits pour les parents. En fait, ils sont faits pour les profs, mais les parents ça va très bien, et ça commence à expliquer de quoi il s’agit. Moi il y a un truc qui me sidère quand même ! Je vais faire des conférences partout et la seule question qu’on me pose « c’est quoi un algorithme ? » et en général, quand on la pose, c’est en écrivant algorithme avec un « y ». OK ! Il est temps de dépasser ça ! Oui on essaye de s’y employer. Donc il y a de plus en plus de gens qui le font et c’est bien.
Étienne Gernelle : Le mot de la fin Aurélie Jean et Gaspard Koenig, rapidement.
Aurélie Jean : Le mot de la fin ? Quelle pression ! Pour finir sur ce que disait Gérard Berry, je pense qu’il y a quelque chose à retenir en fait aujourd’hui c’est de s’éclairer davantage sur la technologie ; par exemple un algorithme c’est un excellent exemple. Savoir ce qu’est un algorithme : on peut tous en écrire un à la main très facilement sur une petite question à résoudre. Je m’amuse à faire ça avec les gens pour qu’ils comprennent.
En tant qu’experte je fais partie de ces gens qui parlent parce que je pense que c’est important que tout le monde rentre dans le débat sociétal et technologique autour des grands sujets tels que la data. C’est vraiment quelque chose que j’encourage et même savoir : par exemple la prochaine fois que vous voyez une ligne stipulant que vos données seront effacées, posez-vous la question : comment ? Voilà. C’est ce que je dirais.
Étienne Gernelle : Merci beaucoup. Gaspard.
Gaspard Koenig : Moi j’aimerais dire une petite phrase creuse sur la philosophie, j’adore des phrases creuses sur la philosophie. Il y a un mois, j’en parlais à Aurélie, j’ai fait le tour classique de la Silicon Valley ; pendant une semaine j’ai vu plein d’entreprises en tout ça. Ce sont les gens qui font les fusées de Google X, qui font Twitter, qui font 23andMe sur le décodage, le séquençage du génome, donc qui vous racontent des choses qui vous transportent dans une galaxie complètement différente du monde dans lequel nous vivons, et je me suis aperçu, au bout d’une semaine, qu’il n’y en avait pas un seul qui avait une référence antérieure au XXIe siècle. C’est-à-dire que Berkeley, qui est pourtant une université, là-bas, qui pourrait nous aider à penser plein de choses Berkeley, parce que par exemple vous savez la théorie de la simulation : c’est qu’on est tous le produit d’une intelligence artificielle qui s’amuse à faire un monde qui nous pilote avec un joystick, pour aller vite. En fait, la théorie de la simulation elle existe déjà chez le philosophe Berkeley, sauf que pour lui l’intelligence artificielle ça peut-être Dieu. Et donc on est tous préprogrammés et, en fait, il n’y a pas de matière. Voilà ! Ce que je veux dire c’est que les gens là-bas, dans l’université Berkeley, d’après Berkeley, sont complètement, sont dans l’ignorance totale que cette théorie de la simulation a déjà été analysée, discutée, il y a trois siècles, et finalement avec des outils conceptuels qui peuvent encore les aider aujourd’hui.
Dans toutes les grandes périodes d’innovation il y a eu des villes-mondes où s’assemblait tout le monde — les philosophes, les savants, les économistes, les financiers, les voyous, etc. — et j’ai l’impression qu’aujourd’hui ça s’est un peu déconnecté, que la Silicon Valley est un peu en vase clos et les philosophes en vase clos aussi, complètement d’ailleurs de l’autre côté de l’Atlantique.
Donc j’appelle à ce que ces mondes communiquent davantage.
Étienne Gernelle : Merci beaucoup. On peut les applaudir ; ils ont été formidables
[Applaudissements]
On signale un livre L’Hyperpuissance de l’informatique de Gérard Berry chez Odile Jacob et Les aventuriers de la libertéde Gaspard Koenig, c’est chez Plon et Le Point et Aurélie Jean qu’on peut retrouver énormément, tu n’as pas fait de livre encore ?
Aurélie Jean : Un projet peut-être.
Étienne Gernelle : D’accord, on va s’occuper de ça et qu’on peut retrouver dans Le Point régulièrement dans Phébé également et sur les réseaux sociaux énormément . Merci infiniment.
[Applaudissements]
Organisateur : Je rappelle que les ouvrages des auteurs seront dédicacés par eux dans le lab. On se retrouve à 14 heures. On parlera espace, on parlera de films de science-fiction qui vont se confondre avec la réalité. On fera un énorme procès où vous serez les jurés de ce projet, on fera le procès de l’homme augmenté. Bon appétit ; à tout à l’heure 14 heures.