2 – Outils de traitements de données du cluster de données¶
Produit de recherche | Description | Nature des données | Formats / standards | Volumétrie | Politique de partage | Politique de conservation à long terme | Actions restant à mener pour B1 |
---|---|---|---|---|---|---|---|
Format Pivot | Format d’entrée des données (modélisé avec alignements partiels sur la TEI, CiDOC-CRM et FRBRoo) | Données textuelles formalisées | DTD XML | 1 fichier XML | Présenté sur doc.biblissima.fr avec la documentation du processus d’harmonisation des données et d’intégration dans le cluster de données (dite “Vademecum”) et diffusé via Github / Gitlab. | HAL + Software Heritage | Dépôt HAL |
Scripts de conversion et de traitements | Scripts spécifiques pour chaque source de données à intégrer (moissonnage, transformation, import) | Codes informatiques | PHP, Python | 1 fichier par version de source / env. 40 unités traitées – IIIF Collections (scripts + données) : ~1.1Go – Traitement des sources de données de B+ : cf tableaux suivants | Stockage sur les serveurs du CC (Seafile), Biblissima 1 : non diffusé / Biblissima+ : Gitlab | Gitlab + Software Heritage | Aucune pour B1 (Intégré à la chaîne de traitement pour B+) |
Webservice de réconciliation et d’alignement de données pour OpenRefine | Service permettant à tout projet d’aligner ses données avec les référentiels de data.biblissima.fr dans l’outil libre OpenRefine ou autre | Codes informatiques | JSON (Wikibase manifest) | 1 fichier manifest | Publié sur la plateforme publique d’Open Refine sur Github sous forme de wikibase-manifest | Github + Software Heritage | Vérifier moissonnage auto dans Software Heritage |
Mécanismes et protocoles de mise à jour des sources intégrées au portail | Développements pour l’enrichissement et l’évolution de l’infrastructure portail | Codes informatiques | Selon les besoins et spécifications | quelques Mo/Go | Hébergement sur l’entrepôt git du prestataire Logilab (Mercurial) avec clone sur les serveurs de Biblissima+ | N / A | Sans objet |
Dernière mise à jour:
October 23, 2023