Aller au contenu

2 – Outils de traitements de données du cluster de données

Produit de recherche Description Nature des données Formats / standards Volumétrie Politique de partage Politique de conservation à long terme Actions restant à mener pour B1
Format Pivot Format d’entrée des données (modélisé avec alignements partiels sur la TEI, CiDOC-CRM et FRBRoo) Données textuelles formalisées DTD XML 1 fichier XML Présenté sur doc.biblissima.fr avec la documentation du processus d’harmonisation des données et d’intégration dans le cluster de données (dite “Vademecum”) et diffusé via Github / Gitlab. HAL + Software Heritage Dépôt HAL
Scripts de conversion et de traitements Scripts spécifiques pour chaque source de données à intégrer (moissonnage, transformation, import) Codes informatiques PHP, Python 1 fichier par version de source / env. 40 unités traitées – IIIF Collections (scripts + données) : ~1.1Go – Traitement des sources de données de B+ : cf tableaux suivants Stockage sur les serveurs du CC (Seafile), Biblissima 1 : non diffusé / Biblissima+ : Gitlab Gitlab + Software Heritage Aucune pour B1 (Intégré à la chaîne de traitement pour B+)
Webservice de réconciliation et d’alignement de données pour OpenRefine Service permettant à tout projet d’aligner ses données avec les référentiels de data.biblissima.fr dans l’outil libre OpenRefine ou autre Codes informatiques JSON (Wikibase manifest) 1 fichier manifest Publié sur la plateforme publique d’Open Refine sur Github sous forme de wikibase-manifest Github + Software Heritage Vérifier moissonnage auto dans Software Heritage
Mécanismes et protocoles de mise à jour des sources intégrées au portail Développements pour l’enrichissement et l’évolution de l’infrastructure portail Codes informatiques Selon les besoins et spécifications quelques Mo/Go Hébergement sur l’entrepôt git du prestataire Logilab (Mercurial) avec clone sur les serveurs de Biblissima+ N / A Sans objet

Dernière mise à jour: October 23, 2023