Documentation et qualité des données¶

A/ Métadonnées et documentation accompagnant les données¶

Dans Biblissima+, les nouveaux jeux de données donneront lieu à des dépôts dans un entrepôt de données à différents stades de leur cycle de vie :

Données « brutes » résultant d'un export, statique ou dynamique ;
Données converties vers le format pivot, avec le fichier de mapping utilisé le cas échéant ;
Données traitées et enrichies (après alignement et ajout d'informations).

Il est recommandé d’utiliser des entrepôts spécialisés dans le partage et l’archivage de données et attribuant des identifiant pérennes DOI tels que Zenodo – entrepôt du CERN financé par la Commission européenne – ou Nakala – réalisation de l’infrastructure de recherche Huma-Num. Nakala peut dans certain cas, et après un audit, donner accès à un archivage sur les serveurs du CINES en France. En ce qui concerne les codes sources de logiciels, le choix se porte sur l’archive pérenne de logiciels Software Heritage.

Chaque dépôt dans une plateforme de ce type donne lieu à une fiche de métadonnées structurée, conforme à un standard (Datacite pour la plateforme Zenodo – voir l’exemple donné en annexe – Dublin Core s'il s'agit de Nakala ; ou Codemeta pour Software Heritage).

Lors de la constitution des dépôts, la documentation nécessaire à l'intelligibilité des données est réunie ou produite. Il peut s'agir de fichiers texte de type README décrivant le dictionnaire des données, le modèle ou schéma utilisé, la licence d'utilisation, l'historique des traitements précédents ou toute information jugée utile pour comprendre l’organisation des fichiers dans le jeu. Il peut s'agir également de documents de spécifications, de schéma conceptuel de bases de données, de documentations de toutes sortes. La sélection des éléments de documentation pertinents ou la définition du niveau de détail apporté dans les métadonnées est à définir au cas par cas.

Il est à noter qu'une grande partie des travaux sont dès le départ fondés sur des standards : TEI, EAD, IIIF. Les données produites dans ce cadre sont nativement riches en métadonnées. Par exemple, la TEI et EAD comportent obligatoirement un en-tête de métadonnées descriptives structurées et riches en informations sur la provenance, la bibliographie, les choix d’encodage, les conventions éditoriales ou de transcription. Certains éléments comme des mots clés, des concepts, des descriptions peuvent être utilisés pour renseigner les métadonnées au niveau de la fiche de métadonnées du dépôt. Dans le même ordre d’idées, l’utilisation des référentiels d'autorité Biblissima nativement dans les catalogues, les corpus et les éditions renforcera la dimension FAIR des données et jeux de données.

Pour le détail des formats et standards utilisés par jeu de données, se reporter aux tableaux synthétiques de la partie précédente.

B/ Mesures de contrôle de la qualité des données¶

Le processus d’ingestion des ressources produites par les équipes partenaires dans le cluster de données du portail ayant pour but l’harmonisation, la normalisation et l’enrichissement des données s’appuient sur des scripts successifs et une vérification humaine. Il garantit ainsi un très haut niveau de qualité technique, syntaxique et sémantique des jeux de données mis en interopérabilité au sein du portail. La qualité scientifique des jeux de données est quant à elle vérifiée en amont, avant ingestion. L’information sur les processus qualité mis en œuvre par les équipes scientifiques est fournie dans les PGDs particuliers qui seront rédigés pour chaque livrable par les responsables scientifiques et techniques. Pour une vue d’ensemble des ressources produites dans les périmètres P2 et P3, se reporter aux tableaux synthétiques de la partie précédente.

Dernière mise à jour: October 13, 2023