14. Entretien avec Olivier Aubert et Françoise Rubellin. « Comme de la pâte à modeler » : dialogue sur les humanités à l'âge du numérique

Introduction ©2024 P. Beaucé, J. Leichman, O. Aubert et F. Rubellin CC BY-NC 4.0
https://doi.org/10.11647/OBP.0400.14

Olivier Aubert, maître de conférences associé en informatique à Nantes Université et consultant en ingénierie des connaissances et Françoise Rubellin, professeure de littérature française du XVIII^e siècle (CETHEFI, LAMO, Nantes Université), en conversation avec Pauline Beaucé et Jeffrey M. Leichman.

***

Jeffrey Leichman (JL) et Pauline Beaucé (PB) : À travers cet entretien, l’idée est de vous inviter à contextualiser des questions qui parcourent en filigrane plusieurs des contributions présentées dans ce volume consacré au renouvellement des études sur lieux de spectacle du passé. Les humanités numériques y tiennent une place importante : bases de données, modélisations, réalité virtuelle, réflexions théoriques... Le numérique, souvent décrit comme virtuel, est pourtant inséparable de notre monde bien réel : quels sont, selon vous, les enjeux des lieux du numérique pour les chercheurs en sciences humaines ?

Olivier Aubert (OA) : Une première chose me fascine, c’est que Jeffrey a beau être aux États-Unis [cet entretien a été en partie réalisé en visioconférence], donc à quelques milliers de kilomètres d’ici, il n’y a quasiment pas de latence. C’est une des premières choses que je mettrais en lien avec la question des lieux du numérique. Le numérique a aboli la distance géographique, tout en permettant la création de nouveaux espaces de communication de nos objets de recherche et de socialisation. La crise Covid, débutée en 2020, a accentué l’accessibilité à l’univers académique, habituellement fermé sur ses lieux, et depuis la communication a été largement transposée par la visioconférence et l’échange de mails. Je n’avais jamais assisté à autant de séminaires et de conférences en ligne avant le premier confinement !

Le numérique a surtout créé des lieux pour l’hébergement des données et il est important de ne pas rester dans la conception d’un numérique éthéré, cette vision dans le nuage [le cloud]. Le nuage, c’est une vision du ciel, on ne sait pas trop où ça se trouve. Non, les données numériques sont bien sur des serveurs qui appartiennent bien à quelqu’un et existent quelque part, fonctionnent avec une énergie, avec des problématiques environnementales liées à la consommation de ressources énergétiques et au coût de fabrication du matériel qui sert à stocker le disque dur sur lequel sont inscrits les bits d’information.

S’il y a ces serveurs physiques, il faut des gens pour les maintenir. Or, la maintenance préoccupe peu les chercheurs, et surtout le financement des projets n’inclut quasiment jamais de ligne de maintenance, qui est faite le plus souvent bénévolement par des personnes au sein des laboratoires. C’est aussi le projet suivant qui doit réussir à maintenir les rendus du projet d’avant, mais pas forcément avec les mêmes personnes, ce qui entraîne des problèmes de transmission d’informations.

L’enjeu est alors celui du soin qu’on prend des choses : que ce soit dans l’architecture informatique, au plus près de la machine, des mises à jour, ou que ce soit le soin même des données qu’on a produites et qui évoluent. Les données ne sont plus des choses statiques qu’on écrit dans un livre, qu’après on pose sur une étagère et qu’on reprend quelques années plus tard sans qu’elles aient bougé. Dans une base de données, on incorpore de nouvelles informations, il faut que ce soit accessible, modifiable, que les données puissent vivre. Il faut bien qu’il y ait quelqu’un qui se charge de gérer cette chose-là. Et ce n’est pas toujours complètement pensé 1.

Françoise Rubellin (FR) : J’aimerais évoquer un exemple concret pour illustrer l’intervention d’Olivier, en parlant de panne. Quand le site CESAR 2 est resté inaccessible de longs mois, ce fut une catastrophe pour les chercheurs qui travaillent sur le théâtre français d’Ancien Régime. CESAR était aux abonnés absents, introuvable, ce qui montre bien que l’espace de l’information n’est pas irréel ou immatériel.

Se pose alors la question de l’accessibilité. Il est dangereux qu’un lieu de ressources soit confié à une seule personne et installé en un seul endroit (un seul serveur, par exemple) : cela entraîne une dépendance et une grande fragilité des données. De même qu’on laisse parfois un théâtre tomber en ruines, comme le théâtre Bel-Air à Nantes qui se détériore année après année à l’abri des regards, dans le cas d’un projet informatique des espaces de rencontre, de stockage de données, d’intersections de connaissances peuvent être abandonnés du jour au lendemain. Donc, selon moi, de même qu’on analyse l’histoire de la construction et de l’architecture des espaces physiques de spectacle (disparus, subsistants ou jamais construits), il serait très utile de conserver et documenter les différentes étapes des projets numériques : de futurs archéologues du digital se demanderont à quoi ressemblaient ces espaces disparus ou transformés (qu’il s’agisse de CESAR ou de tous les actuels projets concernant le théâtre).

OA : Je veux profiter de la comparaison avec le théâtre qui s’effondre parce que il n’est pas entretenu pour évoquer un danger, peu mesuré en informatique mais bien présent dans l’esprit des archivistes : le black hole [trou noir]3. La période où on s’est mis à tout numériser va peut-être devenir, pour les archivistes dans quelques siècles, une grande période de trou noir parce qu’on n’a pas dans le numérique la même culture de documentation, de préservation et d’organisation qu’il y a avec les archives matérielles. Autant en informatique, on peut facilement manipuler des grandes masses de données, autant on peut aussi faire des bêtises à grande échelle, par exemple supprimer des gigas de données en un clic qui fait perdre des choses de manière permanente. Pour moi, il y a un vrai risque de perte des informations qu’on produit, un risque qui est accentué dans le cas informatique.

JL : C’est en fait une question inhérente à l’innovation technologique car le livre est une technologie extrêmement solide, qui fonctionne de la même manière au XVII^e siècle qu’aujourd’hui alors que si on essaie d’utiliser un disque d’il y a 20 ans, c’est presqu’impossible. Dans ce cas, c’est l’évolution technologique qui rend invisibles les données qui seraient, dans un livre (avec tous ses défauts), accessibles même des siècles après. Olivier a dit que les données restent vivantes tant qu’elles sont disponibles, mais ce lieu de l’information disparaît dès qu’on le débranche.

FR : Cela m’amène à un second point : après la panne, l’erreur ! Le problème des données en ligne accessibles à tous aujourd’hui, c’est qu’il peut y avoir des choses fausses qui se répandent à toute vitesse partout. Alors qu’il existait déjà des erreurs dans les livres des savants, les chercheurs pouvaient porter un regard diachronique et le cas échéant publier quelque part « on sait depuis 30 ans que telle affirmation n’est pas exacte ». Tout comme l’espace virtuel élimine la distance géographique, il met à mal l’approche chronologique. On a accès aussi bien à des choses fausses de 1720 qu’à des choses fausses de 2023 ! Le numérique comme espace des savoirs a aussi ses limites.

OA : Comme exemple d’une documentation responsable, je voudrais mentionner Wikipédia , l’encyclopédie collaborative qui a longtemps été décriée par la sphère académique. Elle a deux propriétés fondamentales qui devraient inspirer les chercheurs lorsqu’ils montent des projets collectifs : la gestion des versions (on a tout l’historique de chaque page, qui modifie quoi) et l’onglet discussion (trace des polémiques, des échanges).

JL & PB : Pour passer à un autre sujet, beaucoup de recherches présentées dans le volume s’articulent autour des représentations visuelles des espaces qui ont le potentiel de changer notre conception des cultures de la performance de la première modernité. Quelle est, selon vous, la valeur des images à l’aune du numérique ? Qu’est-ce qu’elles apportent à nos recherches ? Est-ce que l’image informatique est une finalité inévitable quand on travaille sur les lieux de spectacle du passé ?

FR : Quand on s’intéresse au théâtre, on se pose forcément la question de comment le modéliser, que faire s’il n’existe pas de plans ? J’aimerais partir de l’exemple de la tabatière illustrée par Blarenberghe . Cette miniature exceptionnelle de 6cm × 3cm a longtemps été prise comme une source d’information sur un théâtre de marionnettes de la Foire Saint-Germain. Bien qu’il ne s’agisse pas d’une photo, elle permet à beaucoup de découvrir le théâtre de la Foire du XVIII^e siècle et d’imaginer qu’il était ainsi. Mais le travail fait par Paul François (architecte-docteur au CNRS, qui a créé le cadre architectural pour le projet VESPACE et a restitué cette salle de marionnettes en réalité virtuelle) a montré toutes les tromperies de cette image concernant la lumière, les perspectives, la hauteur (voir la contribution de Paul François dans ce numéro). J’ajouterais au sujet de l’iconographie que ces représentations visuelles sur lesquelles nous nous appuyons ne sont jamais innocentes. Par exemple, cette illustration de tabatière a été peinte après l’incendie de la Foire Saint-Germain en 1762 : ce théâtre n’existe plus au moment où on le représente. Est-ce pour montrer qu’il y avait du public noble aux marionnettes ? Est-ce pour garder le souvenir des marionnettes de Bienfait ? de Polichinelle et dame Gigogne ? Est-ce pour rappeler qu’à la Foire il y a différents types de spectacles (l’autre face de la tabatière montre un spectacle de danse de corde, chez Nicolet sans doute) ?

Le numérique nous pousse vers la visualisation, ce qui est surtout vrai par exemple pour la réalité virtuelle ou la modélisation 3D . L’immersion offre la possibilité d’entrer dans le lieu et d’avoir une approche beaucoup plus sensorielle et pas uniquement visuelle. On peut se poser la question du bruit, du toucher (comment on croise les gens en les bousculant), de l’odeur (quand on voit la fumée tremblotante de la chandelle), etc. Je pense que moins que d’apporter des réponses, ce travail à partir des images apporte de nombreuses questions, auxquelles parfois on n’a jamais songé, ce qui est très utile pour renouveler l’étude du théâtre.

Toutefois, la visualisation n’est pas le seul objet de toutes les études présentées dans ce numéro. De nombreux projets collectifs contribuent à renouveler l’histoire des spectacles. Lors du colloque de décembre 2022 à Bordeaux 4, on l’a très bien vu : il était fascinant de découvrir les projets des uns et des autres, pas seulement pour le lieu représenté, mais pour les méthodes que les chercheurs avaient employées : on s’est aperçu qu’on n’avait pas tous les mêmes chemins pour aboutir à ce rêve partagé de redécouvrir une histoire du théâtre dynamique.

Ces nouvelles images générées nous semblent dans un premier temps comme des plongées dans le passé. On commence par penser : « ah, enfin on peut voir comment c’était ! ». Or il faut bien garder à l’esprit que ce sont des hypothèses de lieux et non des lieux. Mais j’ai envie de répondre à ceux qui nous disent « oui mais c’est faux, comment pouvez-vous savoir que la tapisserie était comme ça ? », que quand on n’avait pas les images, de nombreux historiens ou critiques faisaient des suppositions fausses et qu’on ne les attaquait pas pour cela. On le voit bien avec la contribution de François Rémond, qui a montré que selon les historiens du théâtre, on avait estimé que la scène de l’Hôtel de Bourgogne faisait tantôt six, tantôt douze mètres de large, et qu’on avait aussi fait des approximations sur la hauteur des portes, alors que les images informatiques qu’il a produites contredisent ces suppositions.

Ces images ont un aspect très positif. C’est ainsi, je pense, qu’on va attirer de nouveaux publics. Le jeune public , du collégien à l’étudiant, a des images toute la journée devant lui. Donc intéresser par les images, donner envie d’entrer dans les bâtiments, ce n’est pas forcément l’érudition qu’évoque l’histoire du théâtre, mais c’est une très bonne incitation d’autant qu’il y existe des moyens de mettre en valeur les incertitudes à l’intérieur de la réalité virtuelle par exemple.

OA : Effectivement, pensons au système Prouvé développé par Paul François pendant sa thèse, qui permettait d’enrichir un modèle de réalité virtuelle avec les données qui avaient servi, soit pour contextualiser des éléments dans le système, à concevoir ce modèle de réalité virtuelle. Le système Prouvé s’aligne sur l’esprit critique qu’il faut appliquer à une abondance d’informations, dont ces histoires de visualisation, de représentation, etc. Que ce soit les représentations anciennes auxquelles on a accès maintenant (pensons à Gallica), ou alors à celles qu’on produit nous-mêmes, faire la part des choses exige un regard critique affûté pour trouver des contradictions qui peuvent exister, poser des questionnements, tant par le biais des outils spécifiques comme Prouvé, que par la communication entre chercheurs dans des colloques ou des publications.

Ce qu’a dit Françoise m’évoque notamment la session autour du jeu vidéo que j’ai beaucoup appréciée lors du colloque de décembre 2022 [voir l’entretien, dans ce livre, avec Nicolas Patin et Sandrine Dubouilh ], qui nous amène à examiner la série Assassin’s Creed et les questions qu’elle pose au milieu académique. Il y a une sorte de conflit avec les chercheurs qui ont l’habitude d’avoir des informations validées, exactes et parfois laissent peu de place à l’imaginaire. Alors que le jeu vidéo n’est pas forcément la meilleure chose en termes d’exactitude, pourquoi la suspension temporaire de l’incrédulité (qui est un principe classique de l’expérience théâtrale) n’aurait-elle pas ses applications à nos domaines de recherche ? Quand on joue à un jeu vidéo , il y a des choses qu’on croit, des choses qu’on ne croit pas – on se met à voler, ce qu’on ne peut pas faire dans la réalité mais ce n’est pas grave : il y a des formes de représentation qui sont exactes, d’autres qui ne le sont pas. Je trouve vraiment fécond de situer le jeu vidéo à la fois comme outil de médiation pour faire venir les publics, par son intérêt ludique et sa beauté visuelle mais aussi comme un support à la discussion critique, parce qu’il permet de tester des hypothèses et d’apporter des questionnements, surtout au sujet de la valeur du modèle sensoriel, qu’on n’aurait pas apportés autrement.

FR : En octobre 2018, nous étions à l’Hôtel de Région des Pays de la Loire lors de la Fête de la Science pour présenter VESPACE . A côté de nous, il y avait un stand d’Ubisoft avec Assassin’s Creed, qui exposait leur mode de jeu « Discovery Tour », qui permet d’apprendre des faits relatifs aux décors historiques des différents jeux. Pourtant les personnes qui jouaient n’avaient pas envie de savoir de quand datait la pyramide, elles ne s’intéressaient qu’au jeu !

JL & PB : L’image n’est pas ordinairement l’objet principal d’étude dans l’histoire du théâtre, mais plutôt un support qui facilite et dissémine notre travail de recherche – images mimétiques, mais aussi graphes et autres traductions visuelles des informations. Est-ce que nous maîtrisons les images ou est-ce que les images nous maîtrisent ? Qu’en est-il de l’autonomie intellectuelle du chercheur qui dépend d’outils qui ne sont pas forcément les siens comme base de son travail ? Est-ce que la pluridisciplinarité du numérique, souvent portée subrepticement par l’image numérique, menace la spécificité des domaines d’étude en les subordonnant tous à une visualisation unificatrice mais potentiellement déformatrice ?

OA : Je pense qu’il y a quelque chose à tirer du point de vue des chercheurs dans ce sentiment de vulnérabilité qu’ils ressentent à la non maîtrise des éléments. C’est un vrai plaidoyer en faveur de tous les diplômes en humanités numériques qui se développent pour former des personnes qui ont à la fois des compétences numériques et dans le domaine des humanités, pour que l’informatique ne soit pas quelque chose qu’on subit, mais que ce soit un outil de plus.

FR : Je suis d’accord bien sûr avec Olivier et je pourrais donner l’exemple de Scott Sanders, qui a appris à coder pendant le confinement pour pouvoir aller plus loin dans son programme de recherche. Nous devrions au moins apprendre à penser la création d’une base de données, même si ce n’est pas nous qui allons l’exécuter. Quand j’ai participé à l’élaboration du modèle de données de THEAVILLE (http://www.theaville.org), j’ai appris beaucoup en posant des questions naïves et non informées. Quant à l’idée d’une perte d’autonomie et d’une dépendance aux outils, il me semble qu’il faut surtout souligner la nécessité d’un travail collaboratif et les avantages que celui-ci entraîne. Pendant longtemps la recherche en lettres relevait d’un effort solitaire, souvent coupé non seulement des autres chercheurs mais aussi des autres disciplines. Aujourd’hui, la crainte de la dépendance recoupe parfois la peur de se voir déposséder de ses données, ou bien de ne plus être seul maître à bord.

OA : Je suis un informaticien donc j’ai l’habitude de cette chose-là, j’ai déjà ce rapport à la matière numérique, que je vois comme de la pâte à modeler. Mais je n’ai pas toujours les questions pour faire avancer la recherche, c’est pour ça qu’il faut que je travaille avec des personnes comme Françoise qui apportent les questions et le cadre pour guider la forme qu’on donne aux rendus. La question que vous posez, la manière dont vous l’avez énoncée, suppose qu’on subit les images, les représentations. Or, c’est quelque chose contre lequel je me bats justement, j’essaie de faire prendre conscience à tout le monde et surtout aux personnes qui ne sont pas dans le numérique, qu’on ne subit pas un ordinateur, on n’a pas le droit de subir ce qu’il nous fait. C’est bien de reprendre une autonomie par rapport à ça, et pour ce faire il faut se former un peu, développer une appétence et un minimum de connaissances pour pouvoir discuter. C’est aussi un appel moins à former des chercheurs qui soient uniques et qui aient toutes les compétences de manière unique, qu'à à créer de vrais pôles de compétences et des groupes de recherche en humanités numériques. Cela implique de dépasser le modèle des prestataires numériques, des gens à qui on demande juste un service avec une spécification qui est mal faite parce qu’elle n’intègre pas les aspects numériques.

Cette question de l’autonomie intellectuelle rencontre celle, évoquée au début, de la pérennité des recherches qui dépendent des méthodes informatiques, précisément dans le domaine des licences. Quelle est la propriété qu’on donne à la fois aux logiciels, et surtout aux logiciels libres qui permettent de garder une pérennité de ces données, et les licences qu’on met aux données aussi ? Autrement dit, comment est-ce qu’on permet qu’une donnée évolue, comment est-ce qu’on permet qu’une personne s’approprie cette information, et quelles licences peut-on utiliser pour éviter qu’il y ait une appropriation personnelle, pour assurer qu’il s’agisse d’une contribution générale ?

Ces histoires de licence soulignent l’importance du privé dans le monde de la recherche, au sein même de l’espace informatique. Mais les revues scientifiques avec des droits d’accès énormes montrent que la publication académique était déjà quelque chose de commercial avant l’informatique. Sous cet angle, ce n’est pas si évident que ce soit juste le privé qui pose problème. On peut encore faire le lien avec Wikipédia qui opère avec une licence ouverte, avec Creative Commons pour pouvoir diffuser la connaissance, qui n’empêche pas l’appropriation. Dans les licences libres, il y a deux grands domaines : celles qui permettent l’appropriation, donc des licences très permissives, ce qu’on appelle les licences MIT. Sous ces accords, quelqu’un peut tout à fait profiter d’un logiciel ou d’une base de données qui a été développé par quelqu’un d’autre, l’intégrer dans quelque chose de complètement propriétaire et personnel sans aucune obligation morale ou légale vis-à-vis des développeurs initiaux.

D’autres licences imposent d’avoir à redonner aussi ces modifications et ces ajouts aux matières utilisées aux développeurs, qui empêchent de réutiliser des produits informatiques (logiciels ou bases de données) pour des fins entièrement privées. Il y a un vrai débat autour de ça dans le monde du libre et qui se diffuse un peu partout. Le maintien et la licence déterminent qui va pouvoir voir et utiliser les recherches après la fin du projet, et donc ce sont des questions importantes à avoir en tête en amont des projets numériques. Quels droits est-ce que je donne aux utilisateurs futurs ? Qu’est-ce que je permets d’en faire explicitement ? Les universitaires préfèrent souvent laisser cela un peu flou.

JL & PB : Quelle suite pour les projets en humanités numériques ? Quelles évolutions vous fascinent le plus ?

OA : L’intelligence artificielle fait beaucoup parler en ce moment, et il est intéressant de noter que les données générées par ChatGPT sont sous licence Creative Commons. Elles sont en CC-BY donc elles sont en Creative Commons avec devoir d’attribution d’auteur, en l’occurrence OpenAI [l’entreprise qui a développé l’IA]. C’est différent du domaine public, parce qu’il faut toujours citer l’auteur ; sinon, c’est très permissif, on peut les réutiliser, on peut en faire quelque chose de commercial, on peut les vendre, mais normalement il faut toujours citer l’origine.

Beaucoup de modèles et de procédés de modélisation actuels nécessitent de gros moyens matériels, comme on a évoqué au tout début de la discussion, les serveurs et les centres de calcul, qui nécessitent des alimentations électriques, des gigawatts de puissance qui dépassent de loin les moyens des universités, alors quelle place pour les centres de recherches publics ? Ici, on peut citer l’exemple de Bloom , un modèle de langage conversationnel comme ChatGPT mais beaucoup plus réduit. C’est à l’échelle des serveurs universitaires et au moins on maîtrise ce qu’il y a dedans – dans la mesure où on peut maîtriser ce qu’il y a dans un réseau neuronal artificiel, où l’enjeu est souvent d’observer le rendu et de théoriser comment l’affecter pour affiner les résultats, car dans les systèmes de deep learning (apprentissage profond), on ne maîtrise pas tout. Mais avec un système comme Bloom, au moins on peut faire de la recherche dessus, c’est plus ouvert que les systèmes propriétaires.

Mais même ces systèmes d’une complexité littéralement au-dessus de notre compréhension fonctionnent tous sur une base de données, des données créées par les humains. Par exemple, les premiers modèles de deep learning qui ont vraiment bien fonctionné étaient les modèles de labellisation et puis de génération d’image. Ce modèle s’est formé d’abord avec ImageNet , une grande base d’images assemblée par des humains. Si on se projette un peu dans l’avenir, on pourrait imaginer des IA qui sont entraînées spécialement pour fouiller dans les données de recherche faites pour des projets informatiques antérieurs, par des chercheurs dans le passé. À ce moment-là, la question de la propriété – de la licence – devient centrale .

Ensuite, l’IA ne peut pas toujours évaluer la validité et la pertinence des données. Dans les algorithmes de deep learning, si la source n’est pas fiable, le résultat ne le sera pas non plus – « bullshit in, bullshit out ». Mais qui va avoir l’expertise pour valider les données d’entraînement de ces systèmes-là ? Et après, qui aura l’expertise pour les tordre suffisamment pour faire sortir des choses inappropriées au modèle 5 ?

FR : J’aimerais conclure ces remarques par l’observation que l’IA montre l’importance de l’esprit critique : on aura encore plus besoin de savants en philosophie, en littérature, en histoire de l’art, en architecture. L’expertise humaine ne sera pas remplacée par l’IA. Terminons sur une note positive pour valoriser nos domaines de compétences et n’ayons pas peur d’être écrasés et de disparaître !

1 Voir sur ce sujet David Pontille et Jérôme Denis, Le Soin des choses : politiques de la maintenance, Paris, La Découverte, 2022.
2 CESAR : Calendrier électronique des spectacles sous l’Ancien Régime et la Révolution,
https://cesar.huma-num.fr/cesar2/.
3 Voir sur ce sujet Jonas Palm, « The Digital Black Hole » (2005) sur le site de l’International Council on Archives, https://www.ica.org/en/digital-black-hole.
4 Repenser les lieux de spectacle de la première modernité : sources et méthodes du virtuel pour l’histoire du théâtre, organisé par Pauline Beaucé, Jeffrey M. Leichman et Louise de Sédouy, les 8–9 décembre 2022 à l’Université Bordeaux Montaigne et au Musée d’Aquitaine. Programme disponible sur le carnet hypothèse, https://vtheatres.hypotheses.org/.
5 Comme souvent, une nouvelle de science-fiction pointe, dès 1996, ce problème de la validation des données nourrissant des modèles de deep learning qui gèrent de plus en plus de décisions dans le monde. Dans « Nulle part à Liverion » Serge Lehman fait le récit d’un historien qui utilise sa connaissance des archives afin de pirater les droits de propriété sur la terre, qui sont déterminés par des satellites dont les algorithmes de contrôle dépendent d’informations susceptibles d’être manipulées.