Archives de l’auteur : eollion

scrapetest1

Figure 3, which shows the most cited authors, further details this dual reception. Émile Durkheim received 2018 citations and Pierre Bourdieu 1863. Bruno Latour received 662 references, which puts him in an intermediate position between the first two and the following 6 authors, who each received more than 100 (from 220 for Tocqueville to 112 for Mauss). Beyond this elite group, the numbers drop abruptly. Two dozens authors are cited more than thirty times, but the others get less. After that, the numbers plummet towards zero.

The frequency of citation over time also varies greatly from one author to another. Focusing once again on the most cited authors, Figure 4 shows that the reference to Durkheim is stable over time in absolute numbers. This is not the case for Bourdieu, and to a lesser extent for Latour, who both have a strongly positive growth rate. Conversely, Boudon, Crozier and Touraine are now less cited than previously. The trend is particularly clear for Crozier. References to this author peaked in the 1980s, in the aftermath of the publication of the Bureaucratic Phenomenon, and then dropped continuously.

The previous analyses can be refined according to the varying forms of visibility. Table 1 features both the number of journals in which a given author is cited, and the journal that contributes most to his or her visibility. Some authors are present in all outlets, but although not dominating any particular outlet. That is the case for authors like Bourdieu and Durkheim. Other are less cited, and, more importantly, in a more local way. This is the case for Crozier, 30% of whose references come from Organization Studies. This is also the case for Boudon, whose work is mentioned in general journals and in those specialized in the sociology of education, but is absent from fully ten other journals. Such authors are not identified with one subfield only, but remain somewhat marked by what made them famous originally. Finally, others are heavily cited but only in a single sphere. This is the case for Callon, whose reception has remained minimal outside of science studies journals. 60% of the references to his work come from one journal, Social Studies of Science. Thus, while his work is not much cited in the discipline, it is absolutely central in this subfield.

% of journals citing this author Journal that most cites this author % of author’s total cites coming from this journal
Durkheim 100 Am Journal of sociology 11.4
Bourdieu 97 15.4
Tocqueville 94 Am Soc Review 11.8
Latour 82 Soc Studies Science 56.4

From Ollion & Abbott, « French Connections. The Reception of French Sociologists in the USA », in European Journal of Sociology, 2016.

SICSS-Paris 2020

Du 23 juin au 2 juillet prochain, l’ENSAE accueillera une école d’été en sciences sociales computationnelles. Déclinaison française du Summer Institute in Computational Social Sciences (SICSS) initié en 2017 à Duke et à Princeton University, SICSS-Paris rassemblera 20 à 25 jeunes chercheuses et chercheurs intéressées à développer leurs compétences et leurs collaborations dans le domaine des méthodes computationnelles.

Cliquer ici pour candidater

Collecter de données depuis internet, nettoyer et augmenter une base de données, extraire de l’information depuis un corpus textuel, analyser les réseaux sociaux, mais aussi réaliser des expérimentations en ligne, mettre en place une collaboration de masses voire pratiquer de la « citizen science » … : depuis un peu plus d’une décennie, les possibilités de recherche augmentée par ordinateur se sont multipliées.

L’objectif de cette école d’été est de proposer une formation à ces méthodes numériques, mais aussi d’offrir une réflexion sur l’apport et les limites de ces (plus ou moins) nouvelles approches pour mener des recherches en sciences sociales. Les cours magistraux alterneront avec des applications pratiques, et des travaux collaboratifs. En fin de journée, des invité·e·s extérieur·e·s viendront présenter leur recherche et échanger avec les participant·e·s.

L’école d’été en sciences sociales computationnelles aura lieu à l’ENSAE, sur le plateau de Saclay au sud de Paris. L’école d’été est entièrement gratuite, l’hébergement (en chambre individuelle) et la plupart des repas sont pris en charge par l’organisation. Une prise en charge des frais de déplacement est aussi possible, si le département d’origine (ou l’employeur) n’est pas en mesure de l’assurer.

L’école est prioritairement destinée aux jeunes chercheuses et chercheurs (master avancés, en thèse ou ayant soutenu depuis quelques années seulement), ainsi qu’aux personnes qui ont professionnellement à travailler activement avec des données numériques sur des problématiques de sciences sociales. La participation se fait sans restriction de discipline ou de pays d’origine. L’objectif de SICSS est en effet de permettre les rencontre entre personnes d’horizons disciplinaires, intellectuels et professionnels variés.

Les candidatures des personnes issues de groupes sous-représentés dans le domaine des sciences sociales computationnelles sont activement recherchées.

Les informations relatives au programme, au processus de candidature ou à la localisation sont disponibles à cette adresse, qui fournit d’autres d’informations. Le site est en anglais, mais les cours seront principalement dispensés en français.

L’école d’été SICSS-PAris est rendue possible par le financement de l’ENSAE, de la Russell Sage Fundation, du CREST, et du Labex ECODEC.

AAC-IA2020

Qu’est-ce qui échappe à l’intelligence artificielle ?
Les limites de la rationalité calculatoire : épistémologie et politique

Appel à communication – Colloque international
Organisé par François Levin (École polytechnique – philosophie) & Étienne Ollion (CNRS – sociologie)

Paris – 18 et 19 Juin 2020

Depuis plusieurs années, l’intelligence artificielle a fait l’objet d’analyses qui insistent sur son caractère contraignant. Elles peuvent viser à démontrer, à partir d’une relecture des textes cybernétiques, “l’essence totalitaire” du dispositif technologique, qui réduit les individus à devenir des éléments formatés et programmés, objets d’un calcul universel (Vioulac, 2018). L’analyse peut aussi porter sur les effets d’individuation nouveaux induits par les algorithmes, que ce soit via la production d’une nouvelle forme d’individualité constituée par “la société de ciblage” (Chamayou, 2015) ou encore via la mise en valeur des effets de “court-circuitage” algorithmique de l’attention et des volontés individuelles (Citton, 2017). Plusieurs travaux ont opéré une reprise conceptuelle de la notion foucaldienne de gouvernementalité pour l’appliquer aux usages algorithmiques de la statistique et aux nouvelles formes de normativité qui s’y expriment (Rouvroy et Berns, 2013). Les effets destructeurs des algorithmes sur les savoirs et les désirs ont enfin fait l’objet d’investigations, par exemple autour du concept de « société automatique » (Stiegler, 2015).

Analysée comme l’aboutissement de la rationalité calculatoire, l’IA est largement pensée sur le registre du calcul et de ce qu’il produit. Ce colloque interdisciplinaire (philosophie, sciences humaines et sociales, informatique, statistiques, mais aussi art) se propose de revenir sur ce présupposé. Par contraste avec ces travaux, son but est de réfléchir sur les formes et sur les limites de ces calculs. En d’autres termes, il s’agit de s’interroger sur ce qui, dans l’intelligence artificielle, échappe au calcul.

Plusieurs pistes pourront alors être explorées :

Des communications pourront porter sur ce que l’IA ne parvient pas, ou ne parvient qu’imparfaitement, à calculer. Ainsi, pour les voitures autonomes, ce qui relève de la négociation non-verbale entre conducteurs.trices échappe encore largement aux algorithmes ; plus généralement l’impossibilité pour l’IA de saisir le contexte (Dreyfus, 1992), ou encore l’ensemble des “réflexes sémantiques” acquis durant l’expérience d’une vie (French, 1990) et même, plus globalement, les valeurs sémantique et non uniquement syntaxiques (Searle, 1980) sont des critiques traditionnelles qui sont faites aux algorithmes.Ce faisant, si les algorithmes d’intelligence artificielle relèvent bien d’une rationalité calculatoire, toute une partie du monde leur échapperait – soit qu’elle n’est pas mise en donnée, soit qu’elle n’est pas calculable. Le non-calculable constituerait alors la/une borne de l’intelligence artificielle. Dans cette perspective, les discours (enthousiastes ou inquiets) sur l’intelligence artificielle surestimeraient son champ d’application possible et donc la capacité à produire les effets qui lui sont attribuées. Une telle hypothèse, qui devrait être étayée, ouvre alors vers d’autres interrogations. Comment définir ce non-calculable, entendu comme limite ? L’est-il circonstanciellement – c’est-à-dire qu’il pourrait être sans cesse repoussé par les avancées en intelligence artificielle – ou absolument ? Peut-il être défini de manière normative (la loi informatique et libertés dispose ainsi qu’une décision administrative faisant grief ne peut être prise de manière exclusivement automatisée) et suivant quels critères ? Est-il constitué positivement, comme une classe d’objets définis, ou bien négativement, simplement comme la conséquence des limites des dispositifs techniques (erreurs, bugs, puissance limitée) ? Poser ainsi la question permet de réinscrire cette interrogation dans celles sur la non-calculabilité  qui a gouverné les mathématiques depuis leur fondements (Gödel, 1931 ; Turing, 1936 ; Chaitin, 2004).

À cette limite externe s’en ajoute une autre, cette fois liée à la méthode et que l’on peut qualifier d’interne. La critique classique du caractère “opaque” des algorithmes d’intelligence artificielle pourra ici être évoquée. Dans quelle mesure la critique de l’inexplicabilité, ou celle de l’absence de démonstration exacte (Boelaert et Ollion, 2018 ; Schubbach, 2019), est-elle toujours d’actualité ? En quoi cette inexplicabilité renvoie-t-elle à ce qui, dans l’IA, échappe au calcul ? Les développements récents destinés à développer l’explicabilité de l’IA, ceux destinés à favoriser l’identification causale (Athey, 2017) offrent-ils des moyens “d’ouvrir la boîte noire de l’IA”, et si oui à quelles conditions, et pour quels résultats? Des communications pourront être proposées dans ce sens, qui pourront aussi rappeler certains des débats relatifs à l’histoire du domaine, où la question de l’explicabilité, et de la calculabilité, ont été centraux – par exemple dans les querelles entre les paradigmes connexionnistes et symboliques (Crevier, 1997; Cardon et al., 2018). Des présentations relatives à la place de la prédiction en sciences (en général, ou par rapport à l’explication) pourront utilement éclairer ces débats.

Une troisième ligne d’interrogation pourrait porter sur les conditions de production des dispositifs d’IA, et ainsi interroger les discours totalisants qui les décrivent comme des systèmes automatisés fondés sur la seule puissance du calcul. La plupart des algorithmes sont en effet entraînés par des individus dont on oublie d’évoquer l’activité de préparation, de nettoyage et d’alimentation des données. L’apprentissage automatique est largement nourri par le travail invisible de milliers de personnes, ces “travailleurs du clic” (Casilli 2018) payés peu ou parfois pas à entraîner les algorithmes. Loin d’être un système entièrement automatisé, l’apprentissage machine actuel repose sur des interventions humaines récurrentes. Les communications pourront alors porter sur ce travail humain d’entraînement des machines. L’IA peut-elle y échapper (par exemple en développant des mécanismes de cumulativité via des procédés de transfer learning), ou est-elle condamnée à s’appuyer toujours sur ce travail de l’ombre? On pourra aussi s’interroger sur les effets de cet entraînement toujours particulier sur les résultats que proposent les algorithmes, et sur les situations qu’ils ne peuvent pas prendre en compte (invitant ainsi prolonger les réflexions classiques sur les biais et sur leurs origines afin de les mettre en discussion avec la thématique de la journée d’étude). On pourra encore se demander ce que les critères d’évaluation des algorithmes de learning, largement organisés autour de l’amélioration de performances prédictives sur quelques jeux de données devenus classiques (MNIST, ImageNet), a fait à la logique calculatoire de l’IA, à la fois en termes d’établissement d’un langage commun, mais aussi en termes de limites pour appréhender des cas qui différerait de l’étalon commun.

D’autres réflexions pourront être explorées. La capacité auto-productive de certains algorithmes (de type apprentissage par renforcement) ne remet-elle pas en cause la vision de l’IA comme application stricte d’une rationalité algorithmique contenue dans ses données d’entraînement – aussi biaisées soient-elles. Les exemples d’œuvres d’art produites à partir de réseaux de neurones de type generative adversarial networks ne sont-ils pas une invitation à reposer la question de l’automatisation, tout en s’interrogeant sur la conséquence de cette capacité productive ?

Parmi les intervenant.es qui ont déjà confirmé leur venue : Michèle Sebag, directrice du laboratoire de recherche en informatique ; Antonio Casilli, chercheur sur le digital labor, auteur de En attendant les robots (2019) ; David Bates, chercheur à Berkeley, ancien directeur du Berkeley Center for New Media.

Les propositions de communication, qui peuvent émaner de disciplines aussi diverses que la philosophie, les SHS, l’économie, le droit ou l’art mais peuvent également provenir de spécialistes en machine learning seront à envoyer avant le 1er mars 2020 à l’adresse suivante : francoislevin01@gmail.com (une page maximum). Les réponses seront données dans le cours du mois de mars.

 

Bibliographie indicative

Susan Athey, “Beyond Prediction: Using Big Data for Policy Problems,” Science, February 3, 2017 David Bates, “Automacity, Plasticity and the deviant Origins of artificial intelligence”, In Plasticity and pathology : On the Formation of the Neural Subject, pp.194-218, ed. Fordham University, 2015

Julien Boelaert, Étienne Ollion, “The Great Regression. Machine Learning, Econometrics, and the Future of Quantitative Social Sciences”, Revue française de sociologie 2018/3 (Vol. 59), p. 475-506.

Dominique Cardon, Jean-Philippe Cointet, Antoine Mazières, “La revanche des neurones. L’invention des machines inductives et la controverse de l’intelligence artificielle”, Réseaux, 2018/5 (n° 211)

Antonio Casilli, En Attendant les robots, Seuil, 2018 Gregory Chaitin, “Leibniz, Randomness and the Halting Probability”, 2004

Grégoire Chamayou, “Avant-propos sur les sociétés de ciblage”, revue Jef Klak, 2015 Yves Citton, “Le court-circuitage néolibéral des volontés et des attentions”, Multitudes n°68, 2017

Hubert Dreyfus, What Computers Still Can’t Do: A Critique of Artificial Reason, The MIT Press, 1992

Robert French, “Subcognition and The Limits of the Turing Test”, Mind, 1990, 99, pp. 53-66.

Kurt Gödel, “Sur les propositions formellement indécidables des Principia Mathematica et de systèmes apparentés”, 1931

Catherine Malabou, Que faire de leur cerveau bleu ?, Puf, 2017 Luciana Parisi, “La raison instrumentale, le capitalisme algorithmique et l’incomputable”, Multitudes, 2016

Antoinette Rouvroy et Thomas Berns, “Gouvernementalité algorithmique et perspectives d’émancipation”, Réseaux, 2013

Arno Schubbach, “Judging machines: philosophical aspects of deep learning”, Synthese, 2019 J. R. Searle, “Minds, Brains and programs”, The Behavioral and Brain Sciences, vol. 3, Cambridge University Press, 1980

Bernard Stiegler, La Société automatique, tome I, Fayard, 2015 Alan Turing, “On Computable numbers”, 1936

Jean Vioulac, Approche de la criticité, PUF, 2018

Une personne AZERTY en vaut deux

 Ministère de l’Éducation Nationale – 4 juillet 2016

Présentation lors des journées de formation des enseignants de l’option « Introduction aux cultures numériques (ESENESR), 5 juillet 2017

 

Aujourd’hui, c’est en tant que praticien et qu’enseignant que je suis invité. Depuis maintenant plus de 5 ans, j’enseigne à différents niveaux universitaires (du L1 au cours pour doctorants, voire pour chercheurs), en France comme à l’étranger, les méthodes numériques. Ce que j’enseigne varie, mais met l’accent sur la connaissance des ordinateurs. Dans le cadre de mes recherches, j’utilise ces techniques qui me permettent de collecter rapidement et avec un effort limité des masses d’informations.

fancy computer

La question à laquelle on m’a invité à répondre est la suivante : pourquoi enseigner les méthodes numériques dès le lycée? Partant de mon expérience, j’ai commencé à faire une liste des raisons qui plaident pour un tel cours. Des raisons qui iraient au-delà de ma paresse personnelle (« si vous le faites, je n’aurai plus à le faire deux ans plus tard »). Rétrospectivement, le principal enseignement que j’ai tiré, c’est de me défier des discours prophétiques. Tous les jours, on nous dit que le numérique va changer nos vies, nos manières d’enseigner, et de chercher. Mais on nous dit aussi l’exact contraire. Et les changements annoncés sont toujours pour l’absolument meilleur, ou inconditionnellement pour le pire. En d’autres termes, la nuance n’est pas de mise.

De ce point de vue, avoir mis les mains dans le cambouis des algorithmes et de la programmation, les avoir enseignés, est salutaire. On se rend compte que les miracles promis n’engagent bien souvent que ceux qui veulent y croire; on constate que les révolutions annoncées se font encore attendre. On s’aperçoit aussi que de vraies transformations sont à l’oeuvre. J’ai donc réfléchi dans ce sens, et j’ai listé les éléments appris au cours de ces années. Ma liste initiale comportait selon les versions entre 10 et 12 points. Pour éviter d’en faire le décalogue des commandements à respecter – ce n’est pas l’esprit – et parce que je voulais éviter de vous donner l’impression que vous vous lanciez dans les travaux d’Hercule, j’en ai finalement retenu 11.

 

1. Il y a (au moins) deux sens à numérique

On nous parle beaucoup numérique en ce moment: monde numérique, société numérique, cultures numériques. Je vous ai dit que j’enseignais un cours de méthodes numériques en ce moment. Le terme est à la mode, mais de quoi s’agit-il finalement? Si vous cherchez des définitions, vous en trouverez, beaucoup. Elles sont aussi, souvent, des interprétations des transformations en cours. Certaines sont très utiles, et je ne prétends pas pouvoir faire mieux. Mais pour notre propos, je vous propose de distinguer deux sens de numérique. Le premier, c’est le sens courant. On dit numérique pour parler d’internet, du web, de ce qu’on fait sur ou via un écran. Souvent, le numérique, c’est d’abord le web et ce qu’il permet.

Cette définition est toutefois restrictive, et il faut en considérer une seconde, qui étend et paradoxalement le champ de notre champ étude. D’un point de vue d’informatique, numérique, ce sont toutes les informations qui peuvent être traitées par un processeur parce qu’elles sont encodées en 1 et en 0. Cet encodage, c’est le binaire (il y en a d’autres). Donc une image, un son, un film, un document de traitement de texte, un fichier pdf…sont des documents numériques. Numérique, vous l’aurez compris, vient de numerus (nombres), ce qui explique l’anglicisme de digital (digitus) utilisé dans le monde anglo-saxon.

Internet, votre smartphone, le web, c’est numérique. Mais tout ce qui est encodé en 1 et en 0 aussi, et ca ne passe pas forcément par internet. Pourquoi cette définition étendue est-elle utile? Car elle inclut dans le champ de l’analyse tout un ensemble d’informations qui peuvent être traitées automatiquement par un processeur, ce qui fait que des activités répétitives peuvent être automatisées, des recherches faites à toute vitesse, des rapprochements opérés. Je vais illustrer ce point à plusieurs reprises, mais l’idée est là: le numérique, ce sont des nombres traités par un processeur.

Penser le numérique ainsi, cela permet d’inclure dans l’analyse tout un ensemble d’items qui pourraient en être exclus. Si on s’intéresse à l’impact du numérique sur le lieu de travail, il faut commencer avant internet. Difficile, par exemple, de ne pas parler de la place prise par les ordinateurs dans l’activité quotidienne. Ma grand-mère était secrétaire, elle a passé une grande partie de sa vie à taper à la chaine des textes similaires, en espérant ne pas faire de faute de frappe sous peine de recommencer. Quand je parle avec elle, elle me dit que le papier carbone a été l’innovation principale qu’elle avait connue au bureau… Puis sont arrivés les ordinateurs. Plus près de nous, les livreurs à vélo que vous voyez dans les rues échangent en permanence des informations numériques via leur téléphone : disponibilité, lieu de livraison, taille de la commande…mais aussi position, renvoyée chaque seconde par leur téléphone, rendement, pauses et géolocalisation. Or ce qui relie le travail sur les premiers PC et les livreurs à vélo, c’est leur caractère numérique, le fait que le traitement soit fait par un processeur0.

fancy binary code picture
 

2. Nos pratiques quotidiennes s’appuient sur des données numériques

Pourquoi apprendre le numérique alors? Au niveau le plus élémentaire, mais le plus important aussi: pour comprendre le monde qui nous entoure. Tous les jours, nous entendons parler de termes comme algorithme, big data, intelligence artificielle, machine learning, etc. Enseigner le numérique, c’est d’abord comprendre ce dont il est question. Il ne s’agit pas que de comprendre les débats, il s’agit aussi de saisir le monde dans lequel on vit. Dans un ouvrage récent dont je vous recommande la lecture, le sociologue Dominique Cardon proposait d’étudier ces programmes qui traitent des données (numériques) automatiquement1. En ouvrant la boîte noire qu’ils constituent, Cardon montre que derrière ce terme se cachent des dispositifs au fonctionnement parfois très simple, mais très différent. Etant donnée la place que prennent les algorithmes dans nos vies, il peut être très utile d’enseigner ce qu’ils sont, et ce qu’ils font. Cela évite les fantasmes, cela montre aussi la réalité.

fancy binary code picture
 

3. Ces pratiques nous mettent en danger

Apprendre le numérique permet aussi d’apprendre à contrôler nos usages, nos pratiques avec des appareils qui traitent des données numériques. Mes étudiants sont toujours surpris quand je leur dis que leur téléphone envoie, à chaque seconde, des informations relatives à leur position. Que leurs conversations sur des chats sont enregistrées, souvent pour toujours. Que leur comportement sur internet est traçable, et que plusieurs entreprises connaissent non seulement leur passage sur un site, mais sur la majorité des sites qu’ils visitent, d’où ils viennent et où ils vont. Ils sont encore plus surpris quand ils apprennent que les ordinateurs sont presque tous uniques, donc identifiables, et que le fait qu’ils en aient plusieurs (un à la maison, un smartphone) ne change rien car l’appariement entre dispositifs est facile. Et je ne parle que de ce qui est légal, car entre l’illégalisme d’Etat (les écoutes massives) et celui de hackers (qui peuvent facilement voler votre mot de passe, ou activer votre caméra), les possibilités d’intrusion dans la vie privée sont aussi permanentes qu’intenses.

Ces données sont par ailleurs stockées, et ont pour la plupart une durée de vie illimitée. Elles peuvent être conservées à moindre coût, sont souvent dupliquées, et peuvent être perdues, transférées, volées, laissées dans un coin. Elles peuvent aussi être croisées très vite, fouillées très vite, et des recoupement peuvent être faits (grâce aux processeurs qui automatisent une recherche). Enseigner le numérique, c’est enseigner cet aspect souvent méconnu ou fantasmé, pour apprendre à s’en protéger efficacement2.

data lake monster
in Ceglowski, Haunted by Data
 

4. La révolution numérique est vecteur d’inégalités

Une autre raison qui justifie à mon sens l’enseignement du numérique au lycée (dès avant même), c’est le fait que la révolution numérique est vecteur d’inégalités. On sait bien sûr qu’il y a des écarts générationnels, et que nos étudiants sont parfois plus compétents que nous sur certains aspects. On dit que c’est parce qu’ils sont nés dedans, parce qu’ils appartiennent à la « génération Y ». Le problème avec cette vision, c’est qu’elle tend à homogénéiser un groupe très divers. On sait que l’accès à internet, aux postes informatiques individuels est socialement différencié. Mais l’accès n’est pas tout. L’usage des écrans est aussi largement différencié par des questions de milieu social, ainsi qu’on pu le montrer Fabienne Gire et Fabien Granjon. Sylvie Octobre et Pierre Mercklé montrent eux des différences de genre: les filles utilisent le numérique, mais pas le même. En général, les aspects les plus techniques restent le domaine des garçons. Or, si le numérique est porteur de transformations; s’il est le lieu des investissements du futurs, il est important — essentiel même — de travailler à l’égalité.

inegalites
in Merckle et Octobre, 2012
 

5. Les opportunités empiriques se multiplient

L’enseignement du numérique, selon son niveau, permet aussi de tirer profit des opportunités permises par cet outil. Le traitement automatisé en est un: en quelques lignes de code, on peut ainsi récupérer de très nombreuses informations. Avec des collègues, j’ai voulu savoir avec quelles disciplines les économistes échangent. Une manière de faire, c’est de regarder qui ils citent dans leurs articles, et de déterminer si le relations avec l’histoire, la sociologie, la psychologie évoluent, et dans quel sens. Longtemps, les chercheurs qui ont fait cela prenaient un petit échantillon (1 revue, 1 an tous les 10 ans) et demandaient à une armée d’étudiants de coder. Une alternative consiste à écrire un script qui aspire les références dans le texte, les recode, et produit des résultats. Et à ne pas prendre une revue mais 10, pas une année mais toutes. En pratique, c’est un peu plus long que ce que je décris, mais le résultat est un tableau général des échanges d’une discipline dominante avec d’autres. C’est plus rapide, c’est aussi exhaustif, et donc la question de la représentativité ne se pose pas.

Plus prosaïquement, vous avez toutes et tous eu cette expérience, à un retour de vacance, de transférer vos photos sur votre ordinateur. Elles ont toute un nom évocateur, du type DSCG2431.jpg, DSCG2432.jpg, DSCG2433.jpg. Et dans un élan organisateur, vous les avez renommées. Les nombres ont été remplacés par des titres: VoyageVenise1,2,3.jpg, ChouchouAlaPlage1,2,3.jpg, etc. C’est bien, mais c’est long, et un peu assommant. Or, en une ligne de commande (une ligne!), cette tâche peut être déléguée. Plus généralement, avec le numérique, l’automatisation peut être simple. En général, comme le répète avec autant d’humour que de raison mon collègue Alexandre Hobeika : « si vous avez l’impression de faire un travail de robot, dites vous qu’un robot pourrait aussi bien le faire, mieux que vous ».

inegalitesCitations de l’économie vers d’autres disciplines (in Fourcade, Ollion, Algan, 2015)
 

6. S’approprier, plutôt que d’ignorer

Tout cela est bel et bon, mais, me direz vous, tout le monde n’est pas informaticien, et ne veut pas le devenir. C’est vrai, et c’est heureux. Mais alors, comment faire? Faut-il se marier avec un membre de cette espèce? Si c’est votre choix, alors messieurs, félicitez-vous de l’ouverture du mariage aux couples de même sexe, car vu le sex ratio dans la profession, vous auriez eu du mal à trouver une âme soeur si vous la vouliez du sexe opposé. Vous pouvez aussi apprendre à coder et, surprise, c’est bien moins difficile qu’on peut le croire. Tout ce que j’ai évoqué ci-dessus, la collecte de données, leur traitement, leur stockage, et d’autres choses encore, nous l’enseignons à des étudiants en 24h. Et les résultats sont surprenants: peu de décrochage, un enthousiasme réel, et de vrais succès. J’ai même réussi à l’enseigner à certains de mes collègues, c’est vous dire. En d’autres termes, à condition de bien préciser ce qu’on veut, et de penser la pédagogie, s’approprier ces méthodes est bien moins coûteux que de les ignorer.

inegalites
 

7. Une nouvelle compétence émerge

Oui mais, me direz-vous, nombreux sont celles et ceux qui sont rétifs aux mathématiques, fâchés avec les statistiques, pas franchement désireux de se replonger dans les joies du théorème central limite ou la définition des bijections. Bonne nouvelle: pour une large partie, cette compétence numérique – compétence à trouver, à collecter, formater – est relativement orthogonale avec toute notion de mathématiques. Bien sûr, si vous souhaitez aller plus loin en informatique théorique, il faudra faire des maths. Bien sûr, des affinités électives existent entre ces disciplines. Mais pendant un certain temps, on peut faire de l’informatique, on peut coder ou simplement se saisir de ces méthodes sans avoir à faire une math sup. La même situation prévaut dans les sciences sociales, où de manière croissante des données sur les pratiques sont disponibles et où des gens qui savent les traiter sont en demande. Mais plutôt que de rejouer les oppositions séculaires que nous connaissons habituellement entre méthodes qualitatives et quantitatives, une autre ligne de front est en train de s’ouvrir qui ne recoupe pas les précédentes. A côté du quali et du quanti, une nouvelle compétence émerge (« ordi »?).

Code Power!
 

8. Une nouvelle période d’abondance s’ouvre en sciences

Comme vous l’avez sûrement entendu, une question nouvelle se pose aux sciences avec la révolution numérique, et cette question, c’est la gestion de l’abondance. Le nombre de textes accessibles va toujours croissant. En dépit des restrictions posées par les éditeurs commerciaux, le volume d’articles à disposition des chercheurs est bien supérieur à ce qui peut être lu, ce qui interroge l’idée même d’une revue de littérature, cet exercice standard au début d’un article scientifique. Le nombre de données est lui aussi en augmentation, exponentielle. Les questions traitées avec quelques données sont aujourd’hui explorées à l’aune de cette abondance nouvelle. Au Rwanda il y a deux ans, une étude a été menée pour connaître les flux de population. En l’absence de service public de la statistique, ce genre de questions est difficile à étudier. Mais en collectant les données de téléphone portable auprès des opérateurs, les chercheurs ont pu montrer les déplacements avec une précision très fine. Ils ont même pu préciser le moyen de locomotion: 3km/h, c’est à pied. 15km/h avec des arrêts réguliers: le bus. 15km/h sans arrêts fixes: le vélo, 60km/h ou plus : la voiture.

Cette abondance a donné lieu à de nombreux discours, à de grandes déclarations prophétiques et clivées. Pour certains, nous serions à l’aube d’une révolution, le savoir être bouleversé, nos connaissances accrues de manière inédite. Dans les sciences sociales, nous serions au début d’une ère où, enfin, on parviendrait à découvrir ces « lois du social » que les pionniers de ces disciplines rêvaient de mettre au jour. Pour d’autres, par contre, ces déclarations ne seraient que poudre aux yeux, car les données sont finalement pauvres, peu intéressantes. Et dans les sciences sociales, les « lois du social » sont annoncées tous les 40 ans depuis Quêtelet (1835), mais sont rarement réalisées.Il y a quelques années, un universitaire écrivait que :

La quête humaine du savoir et le travail académique sont entravés par de nombreux obstacles, au premier rang desquels se trouve l’abondance de travaux disponibles

Or cette prise de position forte dans les débats ne date pas d’hier, elle ne date pas d’il y a 10 ans. Elle est retranscrite dans la Muqadimmah, l’ouvrage du philosophe arabe Ibn Khaldun, écrit au XIVè siècle. Depuis, les sciences ont connu des phases d’abondance (ne retrouve t-on pas les mêmes discours sur la rêvolution à venir lors de l’engouement pour la « Big science » au début des années 1950?), et les prophètes et les Cassandre ont énoncé leurs prédictions. La question est complexe, et ne peut être traitée rapidement, mais une chose est sûre : ce n’est pas la première fois que nous sommes confrontés à ce sentiment d’abondance.

 

9. De nouveaux rapports aux savoirs se développent

Il faut donc se défier des effets d’annonce, et regarder en détail ce qui change. Ces reconfigurations sont trop nombreuses et certaines trop récentes pour qu’on puisse tenir un discours définitif dessus. Il semble toutefois évident que notre rapport au savoir est modifié. L’abondance (relative, mais certaine) des données fait qu’on procède autrement pour connaître, ou qu’il faut procéder autrement. Intuitivement, on le voit bien: quel rapport entre la manière que nous avons de chercher l’information maintenant quand on peut toujours espérer trouver la réponse à notre question sur un site, et la situation où, seuls avec un livre, il fallait s’asseoir et tenter de transposer les maigres éléments. Celles et ceux qui ont commencé à enseigner il y a plus de dix ans voient la différence. Cette masse toujours à disposition (mais pas toujours riche) fait que nous avons développé d’autres compétences, par exemple dans la recherche d’informations. Se fait-elle au détriment d’autres savoir-faire, comme par exemple la capacité de conceptualisation? Je n’ai pas la réponse, mais la question se pose3. L’abondance n’est pas forcément qu’une bénédiction.

Que d’autres rapports au savoir se développent est évident dans certains domaines. En statistique par exemple, une nouvelle classe de techniques émerge : le machine learning, ou apprentissage statistique. Par différence avec les méthodes classiques, ces techniques apprennent des données, le modèle évolue au fur et à mesure qu’il absorbe les informations. Pour fonctionner, ces approches ont besoin de nombreuses données, mais ce faisant, elles peuvent se passer de nombreuses hypothèses. Leurs applications sont très impressionnantes : de la voiture qui se conduit toute seule au robot qui joue au go en passant par les propositions de film ou de musique, ces outils se diffusent à toute vitesse. Ils se diffusent aussi en science, mais de manière moins rapide car elles posent question sur le type de savoir produit. Pour le dire vite, ces techniques sont très bonnes pour prédire (vos goûts, le temps de demain, votre trajet dans Paris) mais on ne sait que rarement pourquoi. Or les boîtes noires, même si elles sont efficaces, les chercheurs n’aiment pas cela. En statistique, mais ailleurs, la question des formes de savoir est très présente.

Deluge
 

10. Toutes les données ont des biais

Cette situation ou la réussite empirique prévaut sur l’explication fait que ces méthodes sont généralement regardées avec un peu de défiance. Il en va de même pour les gens qui veulent travailler avec des données numériques, qu’elles soient massives (big data) ou non. Une critique très récurrente, c’est que les données collectées automatiquement sont finalement pas si intéressantes. Qu’elles sont nombreuses, mais pas forcément riches. La sociologie du couple en fournit un bon exemple : les chercheurs dans ce domaine se sont intéressés à ce que les sites de rencontre pouvaient leur apprendre sur la formation du couple. Après tout, des dizaines de milliers de personnes y sont présentes. Elles s’inscrivent, elles cherchent, elles se contactent, elles répondent (ou pas) à des emails envoyés…Bref, elles ont en ligne des pratiques qui laissent des traces que le site conserve, à des fins de gestion.

Initialement, les chercheurs ont considéré qu’accéder à ces données allait les faire progresser à la fois empiriquement et théoriquement sur les logiques de formation des unions. Mais les données enregistrées ne sont pas toutes pertinentes. Non seulement tout le monde aime la musique, voir ses amis et est plus grand que la moyenne sur les sites, mais les informations enregistrées ne sont pas toutes utiles. Vous trouverez, par exemple, le signe astrologique de personnes, ou leur comportement détaillé sur le site. Mais leur parcours amoureux ou des informations sur leur origine sociale non, car cela n’intéresse pas les concepteurs du site. C’est dommage, c’est c’est souvent ce qui intéresse les sociologues. Les données sont nombreuses, mais pas forcément riches. En d’autres termes, big data ne veut pas dire rich data.

Rencontres
 

Faut-il pourtant récuser tout usage de ces informations? L’idée selon laquelle ces données seraient biaisées car produites à d’autres fins (celle de fonctionnement d’un service) ne saurait en soi être une bonne réponse. Toutes les données ont des biais, et les archives des historiens ne sont rien d’autre que des traces laissées pour d’autres fins et exploitées après coup. Il faut donc juger sur pièces ces données, et leur biais. Cela tombe bien, car c’est justement là que réside le coeur de l’activité scientifique: tenter de passer d’un enregistrement partiel et partial du monde social à une information plus large et plus robuste. Les données numériques ne sont fournissent donc pas forcément la réponse absolue aux questions qu’on se pose. Elles ne doivent pas forcément être exclues a priori, mais plutôt testées, comparées, étudiées, vérifiées, et finalement utilisées. Cela tombe bien, voilà plus d’un siècles que nous sommes habitués à cette critique des sources, selon le terme de Langlois et Seignobos4.

 

11. Nous n’avons fait qu’interpréter le monde numérique dans lequel nous vivons, il est temps de le (dé)coder

Dans un texte qui précède l’idéologie allemande, une discussion dense avec la philosophie idéaliste du milieu du XIXème siècle, Marx avait rédigé 11 petites notes, appelées les thèses sur Feuerbarch. A moins que vous ayez un intérêt pour la discussion de Hegel, vous ne les avez probablement jamais lues, mais il y en a une que vous connaissez, la dernière. Après avoir discuté de la manière de connaître le monde, Marx affirme dans la dernière thèse que « les philosophes ont largement interprété le monde, il est désormais temps de le transformer ». Les dix thèses présentées ci-dessus n’ont certainement pas la prétention de répliquer les commentaires de Marx, elles n’auront pas sa postérité, je suis moins agacé qu’il ne l’était par les jeunes hégéliens (et si j’avais eu un projet d’exil à Londres, les événements récents viennent de le compliquer). Mais outre le nombre, il y a un autre point commun. Il me semble en effet que les philosophes, mais aussi les sociologues, journalistes et de nombreuses autres personnes ont largement interprété le monde numérique, souvent de manière utile. Il est désormais temps de le coder et de le décoder.

Deluge