La reconnaissance vocale aux prises avec la réalité sociologique - Décryptualité du 6 avril 2020
Titre : Décryptualité du 6 avril 2020 - La reconnaissance vocale aux prises avec la réalité sociologique
Intervenants : Manu - Luc
Lieu : April - Studio d'enregistrement
Date : 6 avril 2020
Durée : 14 min 30
Écouter ou enregistrer le podcast
Revue de presse pour la semaine 14 de l'année 2020
Licence de la transcription : Verbatim
Illustration : Page d'accueil du site Common Voice - Licence Creative Commons Public Documents
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.
Description
Régulièrement, les systèmes informatiques censés reproduire des capacités humaines démontrent des incapacités majeures. Récemment, c'était le tour de la reconnaissance vocale. L'occasion de parler de Mozilla Voice et de se demander si ces systèmes auront ou non la capacité d'être satisfaisants un jour.
Transcription
Voix off : Décryptualité.
Voix off de Nico : Le podcast qui décrypte l’actualité des libertés numériques.
Luc : Semaine 14. Salut Manu.
Manu : Salut Luc.
Luc : Je ne te demande pas ce qu’on a au sommaire puisque c’est moi qui vais le lire. The Conversation, « Comment le coronavirus a réveillé l'intelligence collective mondiale », un article de Marc Santolini.
Manu : Super sujet. Article très intéressant. L’intelligence collective c’est quelque chose dont on parle régulièrement ici et ça met en avant un petit peu ce qui se passe en ce moment au niveau du Covid : des scientifiques qui arrêtent de travailler chacun sur leur domaine et leur spécialité pour essayer de travailler sur des solutions globales à la pandémie, des moyens de travailler sur du matériel qui va être utile. Là, tout le monde est en train de s’orienter vers un usage de cette intelligence collective, ce qui est plutôt intéressant. On verra s’il y a des retombées à terme.
Luc : Clubic.com, « Jitsi, l'alternative open source à Zoom, a été téléchargée plus de 1,4 million de fois en mars », un article de Pierre Crochart.
Manu : Jitsi, Zoom, ce sont deux applications qui font de la vidéoconférence et qu’on a utilisées tous les deux.
Luc : Moi j’utilise Zoom au boulot, je connais bien, ça marche bien, mais ça a quelques petites casseroles.
Manu : Oui, il y a même des scandales en ce moment.
Luc : Le premier c’est sur la question des données des gens. C’est chiffré entre chacune des personnes qui utilisent l’outil, par contre, dès que ça arrive sur les serveurs de Zoom, tout est en clair et il semblerait qu’ils revendent des données personnelles.
Manu : Ça a un petit peu fait jaser et, en plus de ça, leur sécurité n’a pas l’air d’être superbe.
Luc : La semaine dernière ils ont écrit à leurs utilisateurs, on a reçu des mails disant « faites des mises à jour maintenant, tout de suite ». Ce n’est pas toujours très bon signe.
Manu : Jitsi1, par ailleurs très bon outil, j’aime beaucoup, je recommande, je l’utilise en famille, avec les amis, ça permet de faire de la vidéoconférence à pas mal de monde.
Luc : Jitsi c’est quand même un logiciel pour lequel il faut un serveur, c’est quelque chose qui doit être installé par quelqu’un qui s’y connaît, donc 1,4 millions de téléchargements c’est quand même bien pour un logiciel de ce type-là.
Manu : C’est considérable, il y a plein de gens qui le proposent, des entreprises, des associations qui proposent cette instance.
Luc : Et les fameux chatonsCHATONS, l'initiative lancée par Framasoft. Plein d’associations, en France, proposent des services pour pouvoir bénéficier de ce service-là et de plein d’autres. Bravo à tout ce monde-là !
Next INpact, « Parcoursup : consécration du droit constitutionnel d'accès aux documents administratifs », un article de Marc Rees.
Manu : L’accès à ces documents c’est un sujet qui intéresse l’April, notamment pour voir un petit peu ce qui se passe au niveau des logiciels libres, des données, des licences, des choses de ce type-là, et effectivement, il y a une commission qui s’appelle la CADA, Commission d’accès aux documents administratifs, qui fait un gros travail pour essayer d’ouvrir tout ça, et là, maintenant, c’est reconnu au niveau constitutionnel, rien que ça ! C’était dans le cadre de Parcoursup, donc l’Enseignement supérieur, les algorithmes de sélection des étudiants, des choses assez intéressantes qu’il faut ouvrir et mettre en accès à tout le monde !
Luc : ZDNet France, « Comment Huawei cherche à protéger ses brevets », un article de Steven J. Vaughan-Nichols.
Manu : Huawei revient. On a déjà discuté du sujet à la suite de ce que Trump avait fait vis-à-vis de leur accès au marché américain.
Luc : Tous des espions !
Manu : Exactement. Donc au nom de la protection contre les espions, les Américains ont essayé de bloquer les accès à leur marché mais aussi aux marchés de tous leurs alliés des pays occidentaux.
Luc : Eh oui, parce que ça bloque leur monopole, ce n’est quand même pas terrible !
Manu : Il y a de ça, clairement.
Luc : En Europe on est plutôt en train de dire « OK, quitte à se faire espionner autant mettre un peu de chaque côté ! »
Manu : Et là, pour essayer de se protéger, notamment contre les attaques de brevets – ce qui n’est pas forcément une mauvaise idée, il faut se protéger – ils mettent en commun dans un pot qui s’appelle L’OIN l’Open invention network, on aime beaucoup. En mettant dans ce pot commun défensif, si quelqu’un les attaque, eh bien normalement ils pourront utiliser les autres brevets pour, eux-mêmes, contre attaquer. C’est une initiative intéressante, même si ça reste du brevet logiciel.
Luc : C’est le résultat d’un système absurde dans lequel on va mettre plein d’argent pour se défendre contre d’autres gens qui marchent dans ce système absurde.
Arcinfo, « L'Université de Neuchâtel souhaite donner des armes juridiques à l’open source matériel », un article de Loïc Marchand.
Manu : C’est ce qu’on appelle souvent le matériel libre et effectivement, ce n’est pas toujours clair la manière dont on peut défendre le matériel libre, dont on peut le mettre en commun. On a vu qu’il y a des initiatives qui se font de construire, de mettre des inventions dans des imprimantes 3D par exemple en lien avec le Covid-19. Il faut protéger et réfléchir à des licences qui seraient adaptées à ce matériel. Il y a une université qui se penche sur le sujet.
Luc : Presse Citron, « L'équipe d'Elizabeth Warren rend ses outils de campagne accessibles en open source », un article de Jean-Yves Alric.
Manu : Il s’agit de la campagne pour les primaires américaines, globalement les présidentielles, et on sait que les candidats, chaque fois, déploient des quantités d’efforts pour développer des logiciels, des outils qui vont leur permettre de faire leur campagne ; là, elle a décidé de mettre en commun. Ce sont des outils qui vont être en lien avec des envois de SMS, des mailing-lists, des suivis, pour dire où est-ce qu’il faut aller taper aux portes. Il semblerait qu’il y a pas mal d’outils qui ont été développés. Elle a perdu les primaires, mais au moins elle redonne à la communauté, c’est une optique qui est quand même assez intéressante.
Luc : ZDNet France, « "Ça reste ouvert", une carte collaborative créée par des contributeurs d'OpenStreetMap », un article de Thierry Noisette.
Manu : »Ça reste ouvert » est un service web basé sur une carte, tout simplement. Vous voyez les commerces qui sont ouverts en ce moment, c’est très utile, ça peut vraiment vous aider à sortir de manière utile quand vous allez dans un magasin ; vous savez ce qui fonctionne ou pas, en ce moment c’est particulièrement important.
Luc : Sujet du jour, on va reprendre certains éléments notamment sur cette question de l’intelligence collective qui était dans un des articles, pour parler un petit peu, notamment, de reconnaissance vocale et de la nécessité, ou pas, que les humains, que les développeurs interviennent pour qu’un système automatique soit pertinent. Le point de départ c’est un article2 que j’ai vu dans Next INpact qui reprend quelque chose publié par The Verge un magazine américain. Ils ont repéré que les outils de reconnaissance vocale identifiaient mal les mots dans 19 % des cas quand les entretiens étaient faits avec des Blancs et dans 35 % des cas quand c’était fait avec des Noirs américains. Est-ce que le système est raciste ?
Manu : Le système est peut-être raciste, en tout cas il a des comportements qui le semblent et qui maltraitent les utilisateurs du système. C’est quelque chose qu’on retrouve avec les images : les images ont l’air d’être calibrées par des gens qui sont blancs et qui n’arrivent pas à bien gérer des images de gens noirs.
Luc : Pour moi c’est comparable mais pas ce n’est pas tout à fait la même chose parce que tu ne parles pas différemment que tu sois noir ou blanc. En revanche, aux États-Unis, il y a une dimension sociologique très importante : on sait que les populations noires américaines sont très majoritairement défavorisées, donc vont potentiellement avoir des accents liés à leurs groupes sociaux qui vont être plus populaires, etc., des façons de parler, indépendamment du fait que leur peau soit noire, le phénomène physique lié à ça n’a aucun lien, c’est simplement qu’ils vont être sous-représentés dans les échantillons de gens qui vont parler ou ce genre de choses. Sur les images, par contre ?
Manu : Par contre, là ce sont les programmeurs qui vont calibrer les images et les dispositifs de prise d’images, et qui vont plutôt orienter dans un sens ou dans un autre. Souvent, quand les programmeurs mettent en place ces outils, c’est eux-mêmes qu’ils utilisent comme point de départ et c’est leur groupe, leur entourage d’une manière générale, donc ils vont calibrer en partant sur des visages blancs traditionnels.
Luc : Après, ils vont éventuellement prendre des tas de paquets de photos et ils vont aller taper dans des photos où si la population est majoritairement blanche il y aura beaucoup de gens blancs et, potentiellement, des banques de photos de trucs qui les intéressent, en tout cas qui leur semblent correctes, du coup il va y avoir des biais. Il y a eu le même type de problèmes avec la reconnaissance faciale des visages asiatiques par exemple, parce que, pareil, les systèmes sont mal alimentés. Donc il n’y a pas besoin qu’il y ait un projet derrière, c’est juste que c’est aussi le reflet du milieu social dans lequel naviguent les gens qui mettent ça en place.
Manu : J’aurais tendance à dire, c’est une expression d’informaticien, GIGO, garbage in, gabage out. En gros, si on met du caca dedans on va obtenir du caca à l’extérieur. Dans le monde du Libre, il y a des gens très intéressants qui essayent d’obtenir des données pour ensuite en faire quelque chose, notamment sur la reconnaissance vocale. On a des amis à Mozilla qui bossent là-dessus.
Luc : Il y a un projet Mozilla, c’est Common Voice3, comme la voix en anglais, voice.mozilla.org, dans lequel, selon la bonne logique du Libre où chacun apporte quelque chose et de l’intelligence collective, tout le monde peut venir contribuer, parce que, évidemment, ce genre de système a besoin de beaucoup d’échantillons et de gens qui écoutent. On peut à la fois enregistrer sa voix et écouter les échantillons enregistrés par d’autres personnes pour que le système sache si c’est un bon échantillon sur lequel travailler ou pas. On a regardé vite fait et on va vous faire écouter une partie validation d’un des échantillons sur lequel on est tombé. Pour moi il illustre très bien le problème.
Voix off : Une partie de la chanson réside dans sa sonorité, avec les thèmes « archetypique ».
Luc : Le mot « archetypique » n’existe pas, c’est archétype, ça s’écrit « ch », le mot est un peu compliqué, la personne qui parle se prend les pieds dans le tapis, elle ne connaît probablement pas le mot. Typiquement, là on voit la phrase qui fait que quelqu’un qui a un petit peu moins de culture littéraire que quelqu’un d’autre va se planter. Peut-être que cette personne aura un accent de certaines catégories sociales moins éduquées, mais qui vont avoir du mal à être représentées dans ce cas-là.
Manu : C’est quelque chose qu’on va avoir dans tous les cas et c’est là où on espère que l’intelligence collective, comment on pourrait dire, soit bien regroupée, récupérée, tamisée, pour en ressortir les bonnes informations. Ce n’est pas facile, je pense qu’il y a un gros effort à faire derrière pour éviter les biais.
Luc : Un autre truc là-dessus, j’en ai écouté plein, je me suis amusé à les valider, c’est 80 % d’hommes qui parlent. Il y a très peu de femmes dans les enregistrements de Mozilla. On voit qu’en laissant ça ouvert, finalement Mozilla récupère des gens qui sont plutôt libristes, qui sont souvent des hommes, souvent bien éduqués. Rien que dans le choix des textes, des fois il y a des noms de villes ou des noms propres étrangers, super durs à dire.
Manu : On avait eu des cas, qu’on avait trouvés amusants tous les deux, de données qui avaient été fournies à des machines et qui avaient dégénéré derrière, notamment dans des cas d’assistants conversationnels qui essayaient de discuter avec les individus sur Internet et qui étaient devenus pseudo-nazis.
Luc : Microsoft avait fait ça, ils avaient mis une IA et on pouvait aller tchatter avec parce que c’était trop cool. Évidemment tout le monde s’est amusé à la troller et en 48 heures, je crois, elle est devenue nazie, misogyne, à peu près le pire qu’on puisse imaginer, parce que c’était rigolo.
Manu : C’est là qu’on se rend que la machine elle-même, si on ne lui donne que des mauvaises informations, elle ne va pas en tirer autre chose que des mauvaises informations.
Luc : Tu pourrais trouver de bonnes conclusions avec des mauvaises informations : le propre de l’intelligence naturelle c’est d’être capable de comprendre les choses par rapport à leur contexte. Or, la machine ne comprend pas, n’a pas cette capacité-là, donc elle ne crée aucun sens. Elle se contente de faire des traitements statistiques d’une base de données. Il y a des gens qui disent « on va lui donner vraiment des tonnes et des tonnes de données, des milliards de données, du coup ça va aller ». Ce que je pense c’est qu’on peut avoir les trucs les plus puissants du monde et mettre des quantités de données pas possibles, le système ne s’en sortira jamais parce qu‘il n’est pas capable de comprendre le contexte. Il faut que quelqu’un lui mette le contexte.
Manu : Ça c’est un sujet qu’on a déjà eu entre nous, clairement.
Luc : Et on n’est pas d’accord !
Manu : Et on n’est pas d’accord ! C’est peut-être mon côté informaticien : j’ai l’impression que si on donnait à un ordinateur toutes les données du monde, à un moment donné il en retirerait une information contextualisée qui lui suffirait pour passer pour nous. Clairement passer le fameux test de Turing par exemple.
Luc : Non ! Je pense que non parce qu’elle n’est pas contextualisée. Le contexte est hyper-variable et à moins que quelqu’un soit capable de décrire le monde tout entier, constamment, de dire « dans tel contexte ceci, dans tel contexte cela », sachant que le contexte change tout le temps puisqu’on a tous des capacités à inventer des mots, à faire de la poésie, des analogies, des machins, etc., la culture change constamment, c’est une mission impossible en fait.
Manu : Moi je rétorquerai, mon côté informaticien, que oui, effectivement, on n’y arrive pas aujourd’hui. Clairement avoir un contexte qui soit malléable, évolutif, qui soit capable de prendre en compte peut-être même des choses personnelles, ça va être difficile pour l’ordinateur, mais ce n’est qu’une question de quantité. La quantité est une qualité et on peut transformer, c’est ce qu’essayent de faire les géants du Web, les Google, les Uber même avec leurs outils de conduite automatique, ils essayent, à partir de masses de données, d’en retirer quelque chose. Est-ce que ce sera une intelligence ? Non. Est-ce que ce sera quelque chose qui aura un bon sens ? Non, parce que je ne suis même pas sûr qu’on puisse définir entre nous ce qu’est un bon sens. C’est comme la conscience. Allez définir la conscience ! Moi je pense que ce n’est pas définissable, parce que peut-être même que ça n’existe pas et que nous, en tant qu’humains, finalement nous ne sommes que la masse des données qui nous constituent, de manière imparfaite parce qu’on se va se planter régulièrement, on va régulièrement se tromper dans les contextes qu’on utilise nous-mêmes, comme un ordinateur, parfois pire qu’un ordinateur, on va faire des erreurs de bon sens, dans le sens où toi tu l’entends.
Luc : C’est là-dessus qu’on n’est pas d’accord, donc on n’arrivera pas à se mettre d’accord ici. Pour moi c’est une différence fondamentale dans la façon dont l’information est traitée et on peut en mettre des tonnes, ça n’améliorera pas la situation, même si on fait des erreurs, il y a des erreurs absolument grossières qu’on ne fera pas. De la même façon que tu as même des animaux qui sont capables de catégoriser des éléments en en ayant vu très peu ; en fait, c’est cette question de la compréhension du contexte. Sauf à ce que la technologie évolue et qu’on passe sur des systèmes d’analyse qui soient radicalement différents, pour moi on va continuer comme depuis les années 50 en pensant qu’on va y arriver parce que ce sera plus puissant, qu’on aura plus de données.
Manu : Il est possible effectivement, comme on le dit depuis 60 ans, « dans 20 ans, l’intelligence artificielle sera au niveau d’un être humain ». Et aujourd’hui encore on dit souvent « dans 20 ans ça y est, on y est » . Donc c’est possible que ce soit toujours le cas, que ce soit toujours à l’infini.
En tout cas on peut se mettre d’accord, déjà aujourd’hui, c’est qu’on fait beaucoup de conneries avec l’informatique, il y a beaucoup d’algorithmes dont il faut se méfier, il y a beaucoup d’usages qui sont mauvais et, effectivement, il faut qu’on y regarde de près. Éviter que les machines deviennent racistes, qu’elles deviennent misogynes, xénophobes et qu’elles nous entraînent dans des comportements qui seront vraiment gravés dans le silicium parce que ce serait particulièrement mauvais pour nous. Là il faut y faire attention, c’est pour ça que le Libre est important.
Luc : Et garder le contrôle de l’informatique.
Manu : Exactement. Là on est d’accord, je pense, et il faut qu’on y bosse.
Luc : Très bien. Allez tous sur voice.mozilla.org si vous n’avez rien à faire, surtout si vous êtes une femme, si vous avez des accents qu’on n’entend pas ailleurs, allez-y, c’est simple, ça ne prend pas beaucoup de temps, on peut faire ça en quelques secondes et c’est sympa.
Manu : Je te dis à la semaine prochaine.
Luc : À la semaine prochaine tout le monde. Salut