Une personne AZERTY en vaut deux

 Ministère de l’Éducation Nationale – 4 juillet 2016

Présentation lors des journées de formation des enseignants de l’option « Introduction aux cultures numériques (ESENESR), 5 juillet 2017

 

Aujourd’hui, c’est en tant que praticien et qu’enseignant que je suis invité. Depuis maintenant plus de 5 ans, j’enseigne à différents niveaux universitaires (du L1 au cours pour doctorants, voire pour chercheurs), en France comme à l’étranger, les méthodes numériques. Ce que j’enseigne varie, mais met l’accent sur la connaissance des ordinateurs. Dans le cadre de mes recherches, j’utilise ces techniques qui me permettent de collecter rapidement et avec un effort limité des masses d’informations.

fancy computer

La question à laquelle on m’a invité à répondre est la suivante : pourquoi enseigner les méthodes numériques dès le lycée? Partant de mon expérience, j’ai commencé à faire une liste des raisons qui plaident pour un tel cours. Des raisons qui iraient au-delà de ma paresse personnelle (« si vous le faites au lycée, je n’aurai plus à le faire deux ans plus tard »).

Rétrospectivement, le principal enseignement que j’ai tiré, c’est de me défier des discours prophétiques. Tous les jours, on nous dit que le numérique va changer nos vies, nos manières d’enseigner, et de chercher. Mais on nous dit aussi l’exact contraire. Et les changements annoncés sont toujours pour l’absolument meilleur, ou inconditionnellement pour le pire. En d’autres termes, la nuance n’est pas de mise.

De ce point de vue, avoir mis les mains dans le cambouis des algorithmes et de la programmation, les avoir enseignés, est salutaire. On se rend compte que les miracles promis n’engagent bien souvent que ceux qui veulent y croire ; on constate que les révolutions annoncées se font encore attendre. On s’aperçoit aussi que de vraies transformations sont à l’oeuvre. J’ai donc réfléchi dans ce sens, et j’ai listé les éléments appris au cours de ces années.

Ma liste initiale comportait selon les versions entre 10 et 12 points. Pour éviter d’en faire le décalogue des commandements à respecter – ce n’est pas l’esprit -, et parce que je voulais éviter de vous donner l’impression que vous vous lanciez dans les travaux d’Hercule, j’en ai finalement retenu 11.

 

1. Il y a (au moins) deux sens à numérique

On nous parle beaucoup numérique en ce moment : monde numérique, société numérique, cultures numériques. Je vous ai dit que j’enseignais un cours de méthodes numériques en ce moment. Le terme est à la mode, mais de quoi s’agit-il finalement? Si vous cherchez des définitions, vous en trouverez, beaucoup. Elles sont aussi, souvent, des interprétations des transformations en cours. Certaines sont très utiles, et je ne prétends pas pouvoir faire mieux. Mais pour notre propos, je vous propose de distinguer deux sens de numérique. Le premier, c’est le sens courant. On dit numérique pour parler d’internet, du web, de ce qu’on fait sur ou via un écran. Souvent, le numérique, c’est d’abord le web et ce qu’il permet.

Cette définition est toutefois restrictive, et il faut en considérer une seconde, qui étend et paradoxalement le champ de notre champ étude. D’un point de vue d’informatique, numérique, ce sont toutes les informations qui peuvent être traitées par un processeur parce qu’elles sont encodées en 1 et en 0. Cet encodage, c’est le binaire (il y en a d’autres). Donc une image, un son, un film, un document de traitement de texte, un fichier pdf…sont des documents numériques. Numérique, vous l’aurez compris, vient de numerus (nombres), ce qui explique l’anglicisme de digital (digitus) utilisé dans le monde anglo-saxon.

Internet, votre smartphone, le web, c’est numérique. Mais tout ce qui est encodé en 1 et en 0 aussi, et ca ne passe pas forcément par internet. Pourquoi cette définition étendue est-elle utile? Car elle inclut dans le champ de l’analyse tout un ensemble d’informations qui peuvent être traitées automatiquement par un processeur, ce qui fait que des activités répétitives peuvent être automatisées, des recherches faites à toute vitesse, des rapprochements opérés. Je vais illustrer ce point à plusieurs reprises, mais l’idée est là : le numérique, ce sont des nombres traités par un processeur.

Penser le numérique ainsi, cela permet d’inclure dans l’analyse tout un ensemble d’items qui pourraient en être exclus. Si on s’intéresse à l’impact du numérique sur le lieu de travail, il faut commencer avant internet. Difficile, par exemple, de ne pas parler de la place prise par les ordinateurs dans l’activité quotidienne. Ma grand-mère était secrétaire, elle a passé une grande partie de sa vie à taper à la chaine des textes similaires, en espérant ne pas faire de faute de frappe, sous peine de recommencer. Quand je parle avec elle, elle me dit que le papier carbone a été l’innovation principale qu’elle avait connue au bureau… Puis sont arrivés les ordinateurs. Plus près de nous, les livreurs à vélo que vous voyez dans les rues échangent en permanence des informations numériques via leur téléphone : disponibilité, lieu de livraison, taille de la commande…mais aussi position, renvoyée chaque seconde par leur téléphone, rendement, pauses et géolocalisation. Or ce qui relie le travail sur les premiers PC et les livreurs à vélo, c’est leur caractère numérique, le fait que le traitement soit fait par un processeur0.

fancy binary code picture
 

2. Nos pratiques quotidiennes s’appuient sur des données numériques

Pourquoi apprendre le numérique alors? Au niveau le plus élémentaire, mais le plus important aussi : pour comprendre le monde qui nous entoure. Tous les jours, nous entendons parler de termes comme algorithme, big data, intelligence artificielle, machine learning, etc. Enseigner le numérique, c’est d’abord comprendre ce dont il est question. Il ne s’agit pas que de comprendre les débats, il s’agit aussi de saisir le monde dans lequel on vit. Dans un ouvrage récent dont je vous recommande la lecture, le sociologue Dominique Cardon proposait d’étudier ces programmes qui traitent des données (numériques) automatiquement1. En ouvrant la boîte noire qu’ils constituent, Cardon montre que derrière ce terme se cachent des dispositifs au fonctionnement parfois très simple, mais très différent. Etant donnée la place que prennent les algorithmes dans nos vies, il peut être très utile d’enseigner ce qu’ils sont, et ce qu’ils font. Cela évite les fantasmes, cela montre aussi la réalité.

fancy binary code picture
 

3. Ces pratiques nous mettent en danger

Apprendre le numérique permet aussi d’apprendre à contrôler nos usages, nos pratiques avec des appareils qui traitent des données numériques. Mes étudiants sont toujours surpris quand je leur dis que leur téléphone envoie, à chaque seconde, des informations relatives à leur position. Que leurs conversations sur des chats sont enregistrées, souvent pour toujours. Que leur comportement sur internet est traçable, et que plusieurs entreprises connaissent non seulement leur passage sur un site, mais sur la majorité des sites qu’ils visitent, d’où ils viennent et où ils vont. Ils sont encore plus surpris quand ils apprennent que les ordinateurs

Apprendre le numérique permet aussi d’apprendre à contrôler nos usages, nos pratiques avec des appareils qui traitent des données numériques. Mes étudiants sont toujours surpris quand je leur dis que leur téléphone envoie, à chaque seconde, des informations relatives à leur position. Que leurs conversations sur des chats sont enregistrées, souvent pour toujours. Que leur comportement sur internet est traçable, et que plusieurs entreprises connaissent non seulement leur passage sur un site, mais sur la majorité des sites qu’ils visitent, d’où ils viennent et où ils vont. Ils sont encore plus surpris quand ils apprennent que les ordinateurs sont presque tous uniques, donc identifiables, et que le fait qu’ils en aient plusieurs (un à la maison, un smartphone) ne change rien car l’appariement entre dispositifs est facile. Et je ne parle que de ce qui est légal, car entre l’illégalisme d’Etat (les écoutes massives) et celui de hackers (qui peuvent facilement voler votre mot de passe, ou activer votre caméra), les possibilités d’intrusion dans la vie privée sont aussi permanentes qu’intenses.

sont presque tous uniques, donc identifiables, et que le fait qu’ils en aient plusieurs (un à la maison, un smartphone) ne change rien car l’appariement entre dispositifs est facile. Et je ne parle que de ce qui est légal, car entre l’illégalisme d’Etat (les écoutes massives) et celui de hackers (qui peuvent facilement voler votre mot de passe, ou activer votre caméra), les possibilités d’intrusion dans la vie privée sont aussi permanentes qu’intenses.

Ces données sont par ailleurs stockées, et ont pour la plupart une durée de vie illimitée. Elles peuvent être conservées à moindre coût, sont souvent dupliquées, et peuvent être perdues, transférées, volées, laissées dans un coin. Elles peuvent aussi être croisées très vite, fouillées très vite, et des recoupement peuvent être faits (grâce aux processeurs qui automatisent une recherche). Enseigner le numérique, c’est enseigner cet aspect souvent méconnu ou fantasmé, pour apprendre à s’en protéger efficacement2.

data lake monster
in Ceglowski, Haunted by Data
 

4. La révolution numérique est vecteur d’inégalités

Une autre raison qui justifie à mon sens l’enseignement du numérique au lycée (dès avant même), c’est le fait que la révolution numérique est vecteur d’inégalités. On sait bien sûr qu’il y a des écarts générationnels, et que nos étudiants sont parfois plus compétents que nous sur certains aspects. On dit que c’est parce qu’ils sont nés dedans, parce qu’ils appartiennent à la « génération Y ». Le problème avec cette vision, c’est qu’elle tend à homogénéiser un groupe très divers. On sait que l’accès à internet, aux postes informatiques individuels est socialement différencié. Mais l’accès n’est pas tout. L’usage des écrans est aussi largement différencié par des questions de milieu social, ainsi qu’on pu le montrer Fabienne Gire et Fabien Granjon. Sylvie Octobre et Pierre Mercklé montrent eux des différences de genre: les filles utilisent le numérique, mais pas le même. En général, les aspects les plus techniques restent le domaine des garçons. Or, si le numérique est porteur de transformations; s’il est le lieu des investissements du futurs, il est important — essentiel même — de travailler à l’égalité.

inegalites
in Merckle et Octobre, 2012
 

5. Les opportunités empiriques se multiplient

L’enseignement du numérique, selon son niveau, permet aussi de tirer profit des opportunités permises par cet outil. Le traitement automatisé en est un: en quelques lignes de code, on peut ainsi récupérer de très nombreuses informations. Avec des collègues, j’ai voulu savoir avec quelles disciplines les économistes échangent. Une manière de faire, c’est de regarder qui ils citent dans leurs articles, et de déterminer si le relations avec l’histoire, la sociologie, la psychologie évoluent, et dans quel sens. Longtemps, les chercheurs qui ont fait cela prenaient un petit échantillon (1 revue, 1 an tous les 10 ans) et demandaient à une armée d’étudiants de coder. Une alternative consiste à écrire un script qui aspire les références dans le texte, les recode, et produit des résultats. Et à ne pas prendre une revue mais 10, pas une année mais toutes. En pratique, c’est un peu plus long que ce que je décris, mais le résultat est un tableau général des échanges d’une discipline dominante avec d’autres. C’est plus rapide, c’est aussi exhaustif, et donc la question de la représentativité ne se pose pas.

Plus prosaïquement, vous avez toutes et tous eu cette expérience, à un retour de vacance, de transférer vos photos sur votre ordinateur. Elles ont toute un nom évocateur, du type DSCG2431.jpg, DSCG2432.jpg, DSCG2433.jpg. Et dans un élan organisateur, vous les avez renommées. Les nombres ont été remplacés par des titres: VoyageVenise1,2,3.jpg, ChouchouAlaPlage1,2,3.jpg, etc. C’est bien, mais c’est long, et un peu assommant. Or, en une ligne de commande (une ligne!), cette tâche peut être déléguée. Plus généralement, avec le numérique, l’automatisation peut être simple. En général, comme le répète avec autant d’humour que de raison mon collègue Alexandre Hobeika : « si vous avez l’impression de faire un travail de robot, dites vous qu’un robot pourrait aussi bien le faire, mieux que vous ».

inegalitesCitations de l’économie vers d’autres disciplines (in Fourcade, Ollion, Algan, 2015)
 

6. S’approprier, plutôt que d’ignorer

Tout cela est bel et bon, mais, me direz vous, tout le monde n’est pas informaticien, et ne veut pas le devenir. C’est vrai, et c’est heureux. Mais alors, comment faire? Faut-il se marier avec un membre de cette espèce? Si c’est votre choix, alors messieurs, félicitez-vous de l’ouverture du mariage aux couples de même sexe, car vu le sex ratio dans la profession, vous auriez eu du mal à trouver une âme soeur si vous la vouliez du sexe opposé. Vous pouvez aussi apprendre à coder et, surprise, c’est bien moins difficile qu’on peut le croire. Tout ce que j’ai évoqué ci-dessus, la collecte de données, leur traitement, leur stockage, et d’autres choses encore, nous l’enseignons à des étudiants en 24h. Et les résultats sont surprenants: peu de décrochage, un enthousiasme réel, et de vrais succès. J’ai même réussi à l’enseigner à certains de mes collègues, c’est vous dire. En d’autres termes, à condition de bien préciser ce qu’on veut, et de penser la pédagogie, s’approprier ces méthodes est bien moins coûteux que de les ignorer.

inegalites
 

7. Une nouvelle compétence émerge

Oui mais, me direz-vous, nombreux sont celles et ceux qui sont rétifs aux mathématiques, fâchés avec les statistiques, pas franchement désireux de se replonger dans les joies du théorème central limite ou la définition des bijections. Bonne nouvelle: pour une large partie, cette compétence numérique – compétence à trouver, à collecter, formater – est relativement orthogonale avec toute notion de mathématiques. Bien sûr, si vous souhaitez aller plus loin en informatique théorique, il faudra faire des maths. Bien sûr, des affinités électives existent entre ces disciplines. Mais pendant un certain temps, on peut faire de l’informatique, on peut coder ou simplement se saisir de ces méthodes sans avoir à faire une math sup. La même situation prévaut dans les sciences sociales, où de manière croissante des données sur les pratiques sont disponibles et où des gens qui savent les traiter sont en demande. Mais plutôt que de rejouer les oppositions séculaires que nous connaissons habituellement entre méthodes qualitatives et quantitatives, une autre ligne de front est en train de s’ouvrir qui ne recoupe pas les précédentes. À côté du quali et du quanti, une nouvelle compétence émerge (« ordi »?).

Code Power!
 

8. Une nouvelle période d’abondance s’ouvre en sciences

Comme vous l’avez sûrement entendu, une question nouvelle se pose aux sciences avec la révolution numérique, et cette question, c’est la gestion de l’abondance. Le nombre de textes accessibles va toujours croissant. En dépit des restrictions posées par les éditeurs commerciaux, le volume d’articles à disposition des chercheurs est bien supérieur à ce qui peut être lu, ce qui interroge l’idée même d’une revue de littérature, cet exercice standard au début d’un article scientifique. Le nombre de données est lui aussi en augmentation, exponentielle. Les questions traitées avec quelques données sont aujourd’hui explorées à l’aune de cette abondance nouvelle. Au Rwanda il y a deux ans, une étude a été menée pour connaître les flux de population. En l’absence de service public de la statistique, ce genre de questions est difficile à étudier. Mais en collectant les données de téléphone portable auprès des opérateurs, les chercheurs ont pu montrer les déplacements avec une précision très fine. Ils ont même pu préciser le moyen de locomotion: 3km/h, c’est à pied. 15km/h avec des arrêts réguliers: le bus. 15km/h sans arrêts fixes: le vélo, 60km/h ou plus : la voiture.

Cette abondance a donné lieu à de nombreux discours, à de grandes déclarations prophétiques et clivées. Pour certains, nous serions à l’aube d’une révolution, le savoir être bouleversé, nos connaissances accrues de manière inédite. Dans les sciences sociales, nous serions au début d’une ère où, enfin, on parviendrait à découvrir ces « lois du social » que les pionniers de ces disciplines rêvaient de mettre au jour. Pour d’autres, par contre, ces déclarations ne seraient que poudre aux yeux, car les données sont finalement pauvres, peu intéressantes. Et dans les sciences sociales, les « lois du social » sont annoncées tous les 40 ans depuis Quêtelet (1835), mais sont rarement réalisées.Il y a quelques années, un universitaire écrivait que :

La quête humaine du savoir et le travail académique sont entravés par de nombreux obstacles, au premier rang desquels se trouve l’abondance de travaux disponibles

Or cette prise de position forte dans les débats ne date pas d’hier, elle ne date pas d’il y a 10 ans. Elle est retranscrite dans la Muqadimmah, l’ouvrage du philosophe arabe Ibn Khaldun, écrit au XIVè siècle. Depuis, les sciences ont connu des phases d’abondance (ne retrouve t-on pas les mêmes discours sur la rêvolution à venir lors de l’engouement pour la « Big science » au début des années 1950?), et les prophètes et les Cassandre ont énoncé leurs prédictions. La question est complexe, et ne peut être traitée rapidement, mais une chose est sûre : ce n’est pas la première fois que nous sommes confrontés à ce sentiment d’abondance.

 

9. De nouveaux rapports aux savoirs se développent

Il faut donc se défier des effets d’annonce, et regarder en détail ce qui change. Ces reconfigurations sont trop nombreuses et certaines trop récentes pour qu’on puisse tenir un discours définitif dessus. Il semble toutefois évident que notre rapport au savoir est modifié. L’abondance (relative, mais certaine) des données fait qu’on procède autrement pour connaître, ou qu’il faut procéder autrement. Intuitivement, on le voit bien: quel rapport entre la manière que nous avons de chercher l’information maintenant quand on peut toujours espérer trouver la réponse à notre question sur un site, et la situation où, seuls avec un livre, il fallait s’asseoir et tenter de transposer les maigres éléments. Celles et ceux qui ont commencé à enseigner il y a plus de dix ans voient la différence. Cette masse toujours à disposition (mais pas toujours riche) fait que nous avons développé d’autres compétences, par exemple dans la recherche d’informations. Se fait-elle au détriment d’autres savoir-faire, comme par exemple la capacité de conceptualisation? Je n’ai pas la réponse, mais la question se pose3. L’abondance n’est pas forcément qu’une bénédiction.

Que d’autres rapports au savoir se développent est évident dans certains domaines. En statistique par exemple, une nouvelle classe de techniques émerge : le machine learning, ou apprentissage statistique. Par différence avec les méthodes classiques, ces techniques apprennent des données, le modèle évolue au fur et à mesure qu’il absorbe les informations. Pour fonctionner, ces approches ont besoin de nombreuses données, mais ce faisant, elles peuvent se passer de nombreuses hypothèses. Leurs applications sont très impressionnantes : de la voiture qui se conduit toute seule au robot qui joue au go en passant par les propositions de film ou de musique, ces outils se diffusent à toute vitesse. Ils se diffusent aussi en science, mais de manière moins rapide car elles posent question sur le type de savoir produit. Pour le dire vite, ces techniques sont très bonnes pour prédire (vos goûts, le temps de demain, votre trajet dans Paris) mais on ne sait que rarement pourquoi. Or les boîtes noires, même si elles sont efficaces, les chercheurs n’aiment pas cela. En statistique, mais ailleurs, la question des formes de savoir est très présente.

Deluge
 

10. Toutes les données ont des biais

Cette situation ou la réussite empirique prévaut sur l’explication fait que ces méthodes sont généralement regardées avec un peu de défiance. Il en va de même pour les gens qui veulent travailler avec des données numériques, qu’elles soient massives (big data) ou non. Une critique très récurrente, c’est que les données collectées automatiquement sont finalement pas si intéressantes. Qu’elles sont nombreuses, mais pas forcément riches. La sociologie du couple en fournit un bon exemple : les chercheurs dans ce domaine se sont intéressés à ce que les sites de rencontre pouvaient leur apprendre sur la formation du couple. Après tout, des dizaines de milliers de personnes y sont présentes. Elles s’inscrivent, elles cherchent, elles se contactent, elles répondent (ou pas) à des emails envoyés…Bref, elles ont en ligne des pratiques qui laissent des traces que le site conserve, à des fins de gestion.

Initialement, les chercheurs ont considéré qu’accéder à ces données allait les faire progresser à la fois empiriquement et théoriquement sur les logiques de formation des unions. Mais les données enregistrées ne sont pas toutes pertinentes. Non seulement tout le monde aime la musique, voir ses amis et est plus grand que la moyenne sur les sites, mais les informations enregistrées ne sont pas toutes utiles. Vous trouverez, par exemple, le signe astrologique de personnes, ou leur comportement détaillé sur le site. Mais leur parcours amoureux ou des informations sur leur origine sociale non, car cela n’intéresse pas les concepteurs du site. C’est dommage, c’est c’est souvent ce qui intéresse les sociologues. Les données sont nombreuses, mais pas forcément riches. En d’autres termes, big data ne veut pas dire rich data.

Rencontres
 

Faut-il pourtant récuser tout usage de ces informations? L’idée selon laquelle ces données seraient biaisées car produites à d’autres fins (celle de fonctionnement d’un service) ne saurait en soi être une bonne réponse. Toutes les données ont des biais, et les archives des historiens ne sont rien d’autre que des traces laissées pour d’autres fins et exploitées après coup. Il faut donc juger sur pièces ces données, et leur biais. Cela tombe bien, car c’est justement là que réside le coeur de l’activité scientifique: tenter de passer d’un enregistrement partiel et partial du monde social à une information plus large et plus robuste. Les données numériques ne sont fournissent donc pas forcément la réponse absolue aux questions qu’on se pose. Elles ne doivent pas forcément être exclues a priori, mais plutôt testées, comparées, étudiées, vérifiées, et finalement utilisées. Cela tombe bien, voilà plus d’un siècles que nous sommes habitués à cette critique des sources, selon le terme de Langlois et Seignobos4.

 

11. Nous n’avons fait qu’interpréter le monde numérique dans lequel nous vivons, il est temps de le (dé)coder

Dans un texte qui précède l’idéologie allemande, une discussion dense avec la philosophie idéaliste du milieu du XIXème siècle, Marx avait rédigé 11 petites notes, appelées les thèses sur Feuerbarch. A moins que vous ayez un intérêt pour la discussion de Hegel, vous ne les avez probablement jamais lues, mais il y en a une que vous connaissez, la dernière. Après avoir discuté de la manière de connaître le monde, Marx affirme dans la dernière thèse que « les philosophes ont largement interprété le monde, il est désormais temps de le transformer ». Les dix thèses présentées ci-dessus n’ont certainement pas la prétention de répliquer les commentaires de Marx, elles n’auront pas sa postérité, je suis moins agacé qu’il ne l’était par les jeunes hégéliens (et si j’avais eu un projet d’exil à Londres, les événements récents viennent de le compliquer). Mais outre le nombre, il y a un autre point commun. Il me semble en effet que les philosophes, mais aussi les sociologues, journalistes et de nombreuses autres personnes ont largement interprété le monde numérique, souvent de manière utile. Il est désormais temps de le coder et de le décoder.

Deluge