Le jeu de données dont il est question est trouvable sur Wikidata.
En 2021, je suis en thèse depuis désormais un an, et je me mets à vraiment me passionner pour l'institution de l'université : ce qu'elle constitue, représente, sa place dans la cité. C'est probablement l'objet de certains de mes billets de blog, ou ça le sera à l'avenir.
Pour cela, j'ai trouvé un super compte Twitter : la Conférence des Praticiens de l'Enseignement Supérieur et de la Recherche (CPESR), animée par Julien Gossa. Ce compte, en grande partie automatisé, poste des visualisations des universités intéressantes : on y voit la composante principale au centre, puis autour, les UFR, les laboratoires... Tout ça, basé sur les informations figurant sur les pages Wikidata des universités.
Puis, fatalement, vient le jour où ce compte publie une visualisation de mon université, l'Université Paris-Saclay. Et là, je suis... circonspect.
Après avoir fait un malaise vagal face à ce plat de spaghettis, je me reprends, et je regarde ce qui ne va pas. Spoiler : à peu près tout. La première chose qui me fait tiquer est d'y voir l'ENSTA Paris... Nous sommes en novembre 2021, et cela fait maintenant 3 ans que l'École Polytechnique et consorts ont fait sécession du projet de l'Université Paris-Saclay, pour créer avec pertes et fracas leur propre Communauté d'universités et d'établissements (COMUE) l'Institut Polytechnique de Paris.
Deuxième chose : qu'est-ce que c'est que ce gros noeud "Orsay"... Pourquoi "Mines Telecom"... Attendez, pourquoi y a-t-il l'"École des hautes études commerciales de Paris au Qatar" ?????
Je fouille un peu, tout en découvrant Wikidata que je ne connaissais pas du tout, pour découvrir... que cette visualisation se basait sur l'élément Wikidata de la ComUE "Université Paris-Saclay", et non sur l'élément de l'EPSCP Université Paris-Saclay. Un EPSCP, ou établissement public à caractère scientifique, culturel et professionnel, pour faire court, c'est la forme juridique d'une université à proprement parler. Une ComUE, c'est un regroupement d'établissements.
Je vous épargne le projet de fusion de l'université Paris-Saclay (mais je vous renvoie avec enthousiasme vers les recherches d'Émilia Robin qui travaille sur l'historique du campus d'Orsay, c'est passionnant), mais les choses ont évolué entre UniverSud Paris, la ComUE, puis l'université fusionnée. Et visiblement, les contributeurs Wikidata s'y sont perdus, en ajoutant des relations à l'un qui devaient appartenir à l'autre, ou en créant des doublons sans les clôturer ailleurs.
Je ne pouvais pas laisser faire cette hérésie. Et donc, armé de mon courage et de mon imprudence totale...
...je m'y suis mis.
Clôture de l'élément ComUE
Précision à ce stade, sur les deux éléments Wikidata principaux dont je parlerai :
- L'élément Q13531686 correspond à la ComUE (ancienne entité) ;
- L'élément Q109409389 correspond à l'EPSCP (nouvelle entité).
Première chose à faire : aller voir sur l'élément ComUE. Ah... Oui, en effet, c'est le bordel et ça n'a pas été mis à jour depuis un moment. En effet, les anciennes relations avec des établissements qui ont quitté le projet en cours (École Polytechnique, ENSTA, Mines Télécom...) n'ont jamais été clôturées.
Je constate l'étendue des dégâts, et je me dis qu'il faut choisir mes batailles : je ne mettrai pas à jour toute cette page, tant pis. C'est l'ancienne entité, laissons-là ici, elle ne gêne personne. J'ajoute juste une date de fin, une organisation héritière, et hop, oublions cet élément, il est perdu pour la cause.
Le nouvel élément
Le nouvel élément est bien plus respirable : il y a tout à faire, mais au moins, pas de mauvaises informations à rectifier. C'est une bonne base.
(Fun fact : je l'ignorais, mais cet élément Wikidata fut créé en son temps par celui qui deviendra mon N+2 aux bibliothèques de l'Université. Que le monde est petit.)
Il manque le logo. J'ajoute le logo. J'ajoute la photo d'illustration du vieil élément, elle est toujours valide. Ensuite, je regarde les graphiques de Julien : y figurent les laboratoires, les UFR, les établissements partenaires. Toutes ces entités sont ajoutées suivant une méthodologie bien définie, et n'en trouvant aucune autre, je m'y plie volontiers.
J'ajoute les UFR. Facile, je les connais par coeur, il y en a 5. L'école d'ingénieurs interne, hop, c'est fait. Les établissements-composantes, et les universités membres-associés, aussi. (je vous épargne la distinction)
Ah, allez, les laboratoires. Trouvons une liste. Je vais sur le site de l'université, je farfouille. Et là...
Il y en a 248. Deux cent quarante-huit laboratoires. Cent de plus que les barreaux d'avocats que j'avais listés l'année passée.
J'en créé un. Je cherche s'il existe un élément Wikidata préexistant pour ce laboratoire (oui, car on ne peut ajouter une relation qu'avec un élément existant), pour éviter les doublons. Je valide. Et là, message d'erreur : "contrainte inverse, l'élément doit également avoir la déclaration de la propriété inverse organisation mère".
Okay. Donc en plus de devoir ajouter les 248 laboratoires sur la page de l'Université, je vais devoir vérifier s'il existe un élément existant pour ce labo, le créer le cas échéant, puis ajouter l'Université sur la page du laboratoire. Je viens de mettre 4 minutes à faire la démarche pour un labo entier, il m'en reste 247 à faire. Je suis à deux doigts d'abandonner. Mais guidé par mon esprit de procrastination qui me lance à corps perdu dans des projets titanesques pour me détourner de ma thèse, et par mon amour sacrificiel pour le service public et la connaissance libre, je m'accroche.
Quarante. Heures. Ça m'aura pris au total 40 heures. J'ai compté. Quarante heures de copier-coller de numéros d'éléments, de numéros de propriétés, de sites internet... 40 heures. Sur 3 ou 4 jours. Avec une nuit quasi-blanche.
Hé bien croyez-le ou non, j'ai fini ce projet.
Félicitations de rigueur du compte Twitter de mon université, d'un ou deux vice-présidents, de Julien Gossa, réflexions sur la vacuité de mon existence : je suis allé dormir 3 heures.
Mais j'ai été ravi de faire ça. Après ce projet, j'ai continué à me renseigner sur Wikidata, les triplets RTF, et la puissance de ce genre de base de donneés.
J'ai aussi été fier d'apprendre que les bibliothèques de l'Université se sont basées sur mon travail pour enrichir les pages Wikidata des laboratoires, notamment en y ajoutant des identifiants bibliographiques. À mon échelle, je me dis que j'ai posé les bases d'un petit caillou dans la chaussure des outils bibliométriques propriétaires, contrôlés par Elsevier et compagnie.