Aller au contenu

Description des données et collecte ou réutilisation de données existantes

A/ Recueil de nouvelles données et réutilisation de données existantes

Depuis son lancement en 2017 au cours de la première période de financement ÉquipEx, le portail Biblissima s’est enrichi par vagues successives d’intégration de nouveaux jeux de données. Ces jeux de données sont issus des catalogues, des bases de données scientifiques, des opérations de numérisation qui sont menées par les équipes partenaires ainsi que du moissonnage de collections d’images publiées sur le web à l’aide du standard IIIF. Ce fonctionnement est conservé dans le cadre de Biblissima+. Il relève à la fois de la collecte de données existantes et de la création de nouvelles données. En effet, à chaque intégration d’une ressource au sein du cluster de données sous-jacent au portail web, un processus de normalisation et d’enrichissement des données est mis en œuvre. Les entités déjà présentes dans les référentiels d’autorité sont indexées par les identifiants de data.biblissima, tandis que de nouveaux identifiants sont créés pour les entités inédites au sein du référentiel, ce qui l’enrichit en retour. Pour bien comprendre les étapes des traitements et la manière dont ils s’articulent entre eux, il est nécessaire de décrire la manière dont ces référentiels sont gérés, utilisés et enrichis à chaque campagne d’ingestion d’une ressource, de même que la chaîne opératoire dans sa globalité. Les mécanismes de mise à jour à définir dans le cadre de Biblissima+ devront en effet s’appuyer sur cette chaîne opératoire et la consolider au niveau technique et méthodologique.

Les référentiels Biblissima, l’épine dorsale des mécanismes d’interopérabilité des données

Le traitement des différents types de données transmises par les partenaires du projet s’accompagne de la création de référentiels qui servent à gérer l’ensemble des données et facilitent l’intégration progressive des bases dans le portail Biblissima. Des référentiels ont ainsi été créés pour les personnes et les collectivités, pour les œuvres, les lieux géographiques, les descripteurs iconographiques, les cotes de manuscrits et imprimés. Ils contiennent des formes graphiques préférentielles et alternatives, l’indication de la langue d’origine dans le cas des œuvres, des notes d’identification en provenance des partenaires ou rédigées par l’équipe Biblissima, des liens vers les pages source des données si elles sont disponibles, des identifiants uniques de type ARK, et des alignements vers des jeux de données liées (Linked Open Data mis en libre accès par différentes institutions et projets – BnF, Library of Congress, DNB, SUDOC, VIAF, Wikidata, Geonames, Pleiades, Trismegistos etc.). Ces référentiels sont publiés sous licence ouverte via la plateforme data.biblissima.fr. Ils sont mis à disposition sous une forme structurée et exploitable par des programmes informatiques via des services web (ou API web). Tout projet intéressé a ainsi la possibilité de les récupérer et de les réutiliser en utilisant l’un des points d’accès proposés1.

Harmonisation, alignements et enrichissements de données

La mise en interopérabilité des jeux de données hétérogènes au sein portail Biblissima+ repose sur un processus de traitement en 4 grandes étapes : conversion (ou récupération) dans un format dit « pivot », extraction et normalisation des entités, alignements vers des ressources externes et enrichissement des données initiales en retour. Le but est d'agréger plusieurs types de données en provenance des partenaires du projet (périmètres P2 et P3). Au départ du processus, un jeu de données à intégrer est structuré selon différents modèles et formats (SQL, MARC, TEI, EAD…). Il est d’abord transformé vers un même modèle pivot au format XML qui a été défini par l’équipe technique du projet Biblissima. Une fois cette transformation opérée, les données (entités) de chaque base de données sont extraites, retraitées le cas échéant et alignées les unes avec les autres afin de regrouper dans un seul point d’accès les différentes formes graphiques d’une entité (autrement dit toutes les formes du nom d’une même personne, d’une même cote de manuscrit, d’une même œuvre, etc.). Il s’agit d’une étape d’harmonisation essentielle qui permet de regrouper le maximum d’informations pertinentes relatives à une même entité dans une grappe bien identifiée au sein du cluster de données. Des alignements vers des jeux de données liées (Linked Open Data) sont également ajoutés. Ils sont utilisés pour récupérer des informations structurées (éléments biographiques, formes graphiques alternatives, ou encore coordonnées géographiques) qui viennent compléter les données initialement reçues et contribuent à les rendre interopérables avec d’autres outils ou d’autres vocabulaires (cf. plus haut). Par exemple, c’est ce mécanisme qui permettra de lier les entités à des lieux géographiques représentables sur une carte. Cette étape d'alignement vers des sources externes et d’enrichissement des données permet aussi d’inscrire le portail Biblissima dans l’écosystème plus large du web sémantique.

Mises à jour du portail

Les jeux de données sont périodiquement récupérés des partenaires du consortium Biblissima et versés dans le portail dans des délais dépendants de la charge de travail de l’équipe portail. La volumétrie des bases et le temps de traitement afférent représentent des facteurs qui dépendent des spécificités de chaque base et dont le calendrier précis d’intégration dans le portail ne peut pas être défini a priori. Afin de faciliter l’étape de traitement, il est utile que les bases partenaires s’appuient sur les référentiels Biblissima. Au cas où les référentiels ne disposent pas d’une entité équivalente, les partenaires doivent la créer dans la plateforme data.biblissima avec l’aide de l’équipe portail. Cette étape peut être faite soit manuellement, soit par versement à partir d’un fichier tabulaire, soit automatiquement via l’API de la plateforme Wikibase gérant les référentiels. L’insertion des identifiants Biblissima dans chacune des bases partenaires facilite le processus de recoupement des informations, augmente l’interopérabilité des données dans le portail et améliore le rythme des mises à jour.

Dans le cadre de Biblissima+, de nouvelles procédures sont susceptibles de simplifier les mises à jour :

  • Mettre en place un web service qui permette de récupérer les données à tout moment (en veillant à ce qu’il soit facilement aligné ou alignable avec le format pivot) ;

  • Déposer à intervalles réguliers (par exemple tous les 4 ou 6 mois) les jeux de données sur une plateforme accessible à l’équipe portail (cf. plus haut sur l’utilisation de la plateforme Zenodo pour le stockage des données sources, en accès ouvert ou restreint).

Développements liés au portail

L’élargissement du périmètre de Biblissima+ induit l’apparition de nouveaux types de données via les 7 clusters (données sur les matériaux, éditions TEI, transcriptions issues de l’HTR notamment). Leur prise en charge nécessitera des développements spécifiques du portail qui seront assurés partiellement en interne par l’équipe. Chaque nouveau type de données peut avoir des répercussions à plusieurs niveaux : sur le format pivot, les scripts de traitement, le modèle de données du portail et de data.biblissima, le module d’import des données dans le portail ou l’affichage de ces données dans les pages web du portail. Ces ajustements aux différentes étapes de la chaîne de traitement et de publication sont maîtrisés par l’équipe portail.

Un ensemble de développements liés à l’amélioration des fonctionnalités offertes par l’infrastructure ou à sa consolidation sont également prévus (moteur de recherche, facettes, visualisations de données, visualiseur d’images, exports à la demande, passerelles automatisées entre le portail et data.biblissima etc.). Ces évolutions fonctionnelles seront soit prises en charge par l’équipe dans la limite du temps et des compétences disponibles, soit feront l’objet de marchés de prestations informatiques.

B/ Description des données collectées et produites

Les données collectées sont transformées vers le format pivot XML qui a été modélisé à partir de modèles conceptuels et d’ontologies qui font référence pour le périmètre scientifique de Biblissima (TEI, EAD, Cidoc-CRM, FRBR). Pour le détail des natures, types, formats, standards et volumes de chaque source collectée ou produite et possiblement intégrée au cluster de données, se reporter aux tableaux de synthèse de la partie précédente.


  1. 4 points d’accès sont proposés : une API Mediawiki/Wikibase, une interface de données liées (RDF), un point d'accès SPARQL (en test) et un service de réconciliation et d'alignement de données pour l’outil OpenRefine. 


Dernière mise à jour: October 12, 2023