Aller au contenu

Création du PGD V1 (avril 2022)

La première version du PGD a été préparée par une « enquête » auprès des équipes partenaires en février et mars 2022. Un modèle de PGD simplifié, mis en forme sous forme de tableur, a été envoyé aux membres du comité de direction afin qu’ils le transmettent aux chercheurs, enseignants-chercheurs ou ingénieurs responsables de livrables de leurs équipes ou unités. La demande était de remplir un tableau par livrable et de dupliquer la grille d’analyse afin de renseigner un onglet par jeu de données identifié. Par exemple, une édition de corpus en TEI peut donner lieu à une collection de fichiers XML, une collection d’images fac similaires, une interface de saisie et un site de publication web… Les modalités de gestion, de partage et d’archivage peuvent faire appel à des procédures, des outils ou des licences de diffusion très hétérogènes. Les responsables de livrables ont renvoyé les tableaux renseignés entre le 26 février et le 20 mars 2022. Le taux de réponse par rapport à l’ensemble des livrables concernés par la question des données ou des codes sources est d’un tiers environ. Ce taux peut s’expliquer par le fait que les porteurs d’opérations ne débutant pas avant 3 ou 4 ans ne se soient pas sentis concernés.

Ce recueil d’informations avait aussi pour finalité de sensibiliser au PGD, en montrant notamment que les questions sont plus d’ordre organisationnel et stratégique que purement technique. Les informations renseignées dans les tableaux ont été utilisées pour les tableaux synthétiques de la partie « vue d’ensemble ». Elles serviront également plus tard à l’équipe portail pour la planification des collaborations avec les équipes scientifiques.

Le PGD principal a été rédigé par la directrice adjointe coordinatrice du volet A « Infrastructure numérique » et l’équipe portail. Les membres du bureau exécutif ont ensuite revu et validé une première version de la rédaction. Le document a ensuite été soumis pour commentaire et avis à l’ensemble des membres du projet du 15 au 20 avril 2022. La version envoyée à l’ANR prend en compte les remarques formulées dans ce cadre.

Questionnaire de recueil d’informations (périmètre P2)

Description du jeu de données vos réponses dans cette colonne (voir l’exemple)
Période de début des travaux prévue (en indiquant une tranche annuelle ou semestrielle par rapport à la durée totale du financement ANR, par ex. T18, T60…)
Période de livraison prévue (idem)
Modalités d’utilisation des référentiels Biblissima
Caractérisation des données collectées (produites ou réutilisées) vos réponses dans cette colonne (voir l’exemple)
Type de provenance (Création de nouvelles données / réutilisation et transformation de données existantes).
Type de données (textuelles / numériques / images / vidéo / médias divers / de simulation / code informatiques).
Format(s) des données et Standard(s) utilisés (exprimés à l’aide de l’extension du nom de fichier .Txt, .pdf, .csv) - préciser s’il y a un encodage standard (XML/TEI, EAD)…
Informations sur la volumétrie (exprimés en espace de stockage requis (octets), et/ou en quantités d’objets, de fichiers, de lignes, et colonnes).
Métadonnées et documentation vos réponses dans cette colonne (voir l’exemple)
Comment les métadonnées des fichiers regroupés dans le jeu de données sont-elles produites ?
Standard(s) ou schéma(s) de métadonnées utilisées pour renseigner les métadonnées (par exemple Dublin Core, TEI, EAD, Datacite…).
Y a-t-il des éléments de documentation indispensables pour permettre la réutilisation des données (méthodologie de collecte, procédures et méthodes d’analyse, définition des variables et des unités de mesure…) ?
Stockage et sauvegarde des données et métadonnées pendant le projet vos réponses dans cette colonne (voir l’exemple)
Type d’hébergement et lieu de stockage au cours du processus de recherche et d’élaboration du livrable (préciser la fréquence de sauvegarde ou le plan de sauvegarde s’il existe).
Qui aura accès aux données du livrable au cours du processus de recherche (et comment l’accès aux données est contrôlé, en particulier dans le cadre de recherches menées en collaboration).
En cas de données sensibles (par exemple données à caractère personnel, politiquement sensibles des informations ou secrets commerciaux), décrire les principaux risques et la façon dont ils seront gérés pour le livrable.
Titularité, exigences légales et éthiques vos réponses dans cette colonne (voir l’exemple)
Qui aura le droit de contrôler l’accès aux données du livrable ? (lister tous les partenaires le cas échéant). Indiquer si les droits de propriété intellectuelle sont affectés.
Du matériel protégé par des droits spécifiques sera-t-il utilisé au cours du projet (ex : données personnelles, bases de données…) ?
Indiquer s’il y a des restrictions sur la réutilisation de données fournies par des tiers et en expliquer les raisons le cas échéant (par exemple données soumises à des droits de propriété intellectuelle, de confidentialité contractuelle, de sécurité…)
Partage, conditions de réutilisation et DOI vos réponses dans cette colonne (voir l’exemple)
Nom du ou des entrepôt(s) dans lequel(s) une copie du jeu de donnée sera déposée. Par exemple : Nakala, Zenodo, etc. Pour les codes logiciels : Github, Gitlab (préciser l’institution hébergeante). Si l’entrepôt n’attribue pas d’identifiant pérenne, préciser comment celui-ci est obtenu. A défaut, par quels autres moyens le jeu de données pourra-t-il être retrouvé et partagé ?
En cas d’interdit au partage ou d’embargo, indiquez les raisons et les durées (publication, protection de la propriété intellectuelle, dépôt de brevet…)
Quelles méthodes ou quels outils logiciels seront nécessaires pour accéder aux données et les utiliser ?
Quelle licence de réutilisation sera appliquée au jeu de données ? (Creative Commons, Licence ouverte, Open database licence, etc. cf. https://www.data.gouv.fr/fr/pages/legal/licences/).
Un identifiant unique et pérenne sera-t-il attribué aux données publiées en ligne ? Si oui, lequel ? Si non, quel autre type d’identifiant sera attribué (URL, identifiant local, pas d’identifiant…) ?
Conservation à long terme vos réponses dans cette colonne (voir l’exemple)
Le jeu de données est-il concerné par la conservation à long terme ? Si oui, indiquer les principes et les procédures selon lesquelles les données seront sélectionnées.
Quelle plateforme est envisagée pour la conservation à long terme ? Précisez le nom de l’institution prenant en charge les coûts. S’il s’agit d’un archivage au CINES, précisez qui sera en charge de définir le workflow des échanges de données.
Indiquez la volumétrie estimée pour l’archivage à long terme.
Rôles, Responsabilités & coûts vos réponses dans cette colonne (voir l’exemple)
Responsable de la gestion des données (stockage, partage, archivage…)
Responsable de la rédaction et mise à jour du PGD du livrable (qui sera à rédiger entre T6 et T12).
Quelles seront les ressources (budget et temps alloués) dédiées à la gestion des données permettant de s’assurer que les données seront FAIR ? (FAIR : Facile à trouver, Accessible, Interopérable, Réutilisable cf. https://doranum.fr/enjeux-benefices/principes-fair/).

Synthèse des réponses

Le découpage en lignes de financement associées à des « livrables » réalisé pour définir le calendrier des versements financiers1 comporte environ 125 livrables produisant des jeux de données, des codes sources ou des méthodes nécessitant l’établissement d’un plan de gestion des données. Les réponses reçues couvrent 47 livrables, ce qui correspond à un taux de réponse de 37 %. Le nombre de réponses ne permet pas une analyse très poussée. Quelques observations peuvent néanmoins être tirées de ces documents.

Description du jeu de données

Les descriptions complètent les informations données en 2020 lors du montage de la proposition2. La question utile pour l’équipe technique de Biblissima+ porte sur l’utilisation des référentiels au sein du projet. Elle facilitera l’identification des producteurs de données avec qui l’équipe portail devra travailler plus directement.

Caractérisation des données collectées

  • Les livrables portent autant sur la fourniture de nouvelles données que sur la reprise de données existantes. La plupart du temps, il s’agit de partir d’une base existante (fichier TEI, code logiciel) et de l’enrichir ou la développer. Il n’y a pas de cas de réutilisation « telle quelle », sans modification, dans les exemples reçus. La catégorie de données « transformées » est à ajouter à la typologie pour les futures versions du PGD.
  • Les formats utilisés sont très variés mais correspondent à l’état de l’art ainsi qu’aux bonnes pratiques des communautés impliquées. Pour les codes sources sont principalement représentés les langages de manipulation du format XML, les langages de programmation Python, R, et les langages du web comme Javascript, HTML/CSS et Json, Pour les images, les formats TIFF, SVG et Jpeg sont mentionnés ainsi que le protocole IIIF. Les standards liés aux textes structurés les plus représentés sont TEI, EAD et RDF.
  • Peu d’informations sont données sur la volumétrie, probablement du fait des faibles volumes occupés par les données textuelles et les codes logiciels. Un livrable parle de 1 To de données pour une collection d’images au format TIFF.

Métadonnées et documentation

  • Les fiches de métadonnées des dépôts seront la plupart du temps remplies manuellement. Les standards utilisés dépendent de la plateforme de dépôt choisie : Datacite s’il s’agit de Zenodo, Dublin Core en ce qui concerne Nakala.

Stockage et sauvegarde

  • La plupart des répondants bénéficient d’un environnement de travail doté d’espaces serveur ou Cloud apportés par l’un de leurs établissements tutelles. Quand ce n’est pas le cas, ils recourent aux services d’Huma-Num (Sharedocs, hébergement web…).
  • L’accès aux données est réservé aux membres de l’équipe pendant les travaux puis rendu public à la fin des travaux.

Titularité des droits d’auteur, exigences légales et éthiques

  • La question de la propriété intellectuelle des contenus produits par les chercheurs ne se pose que dans certains cas particuliers où les travaux sont centrés sur l’annotation critique de corpus (mais certains projets du même type ouvrent leurs données avec les licences CC BY qui garantissent la mention d’attribution aux auteurs).
  • Les répondants n’ont pas déclaré de traitements de données sensibles ou personnelles.

Partage conditions de réutilisation et DOI

  • La question du choix de la plateforme de dépôt ne semble pas vraiment difficile pour une grande partie des répondants, tandis que d’autres indiquent « je ne sais pas » en réponse sur ce point. Les réponses ne citent que les entrepôts génériques Zenodo et Nakala. Le portail Persée gère son propre entrepôt.
  • Le partage des données ouvert ne fait pas débat dans la grande majorité des cas. La licence choisie est soit Creative Commons, soit la licence très permissive recommandée par la loi Pour une république numérique de 2016 (Licence ouverte Etalab 2.0). Les raisons de choisir l’une plutôt que l’autre ne ressortent pas nettement des réponses : le même type de ressource optera suivant les cas pour l’une plutôt que pour l’autre, plus par habitude qu’en raison d’une analyse de leurs différences, semble-t-il. Souvent les répondants citent les deux types de licences en précisant que la décision sera prise plus tard. L’usage des options restrictives “partage à l’identique” (Share Alike - SA), “Pas de modification” (No Derivatives ou ND) ou “pas d’utilisation commerciale” (Non commercial - NC) n’est pas justifiée et pourrait être débattue dans certains cas. Les clusters ont certainement un rôle à jouer pour faciliter le choix des licences en formulant des recommandations adaptées au contexte spécifique.

Conservation à long terme

  • La question de la conservation ou préservation à long terme ainsi que de l’archivage pérenne ne semble pas entièrement comprise – ce qui n’est pas une surprise étant donné la complexité du domaine de la pérennisation numérique. Pour certains répondants, l’utilisation des espaces d’hébergement web ou de la plateforme Nakala vaut archivage pérenne. Le fait que l’archivage pérenne au CINES avec Nakala n’est qu’une possibilité soumise à audit et à l’établissement d’une convention avec le CINES ne semble pas connue. Seule la plateforme Persée cite la norme OAIS et la plateforme précise utilisée par le CINES pour l’archivage pérenne PAC.
  • Pour les codes sources, aucun répondant ne cite explicitement l’archive Software Heritage. La possibilité d’utiliser conjointement Github et Zenodo pour archiver des versions majeures citables par DOI est mentionnée par un répondant. Pour le domaine TEI, le format ODD n’est pas cité comme un format intéressant pour l’archivage de la TEI, même s’il figure dans la liste des standards utilisés par ailleurs

Rôles responsabilités et coûts

  • Les responsabilités dans la gestion des données telles que les répondants les présentent sont confiées à trois types d’acteurs : les responsables scientifiques et techniques, les informaticiens ou les post-doctorants et ingénieurs recrutés grâce à l’aide financière apportée par Biblissima+. Il n’y a pas de coûts financiers identifiés, probablement grâce aux conditions de gratuité offertes par les infrastructures mutualisées accessibles à la communauté académique en France. En ce qui concerne la charge de travail, celle-ci est estimée la plupart du temps à une durée de 2 à 5 personnes jours à l’échelle d’un livrable ou d’une personne jour par an et par jeu de données.

  1. cf. l’annexe Livrables de Biblissima+ donnant lieu à un versement financier 

  2. Document rédigé par les équipes partenaires qui présente en détail l’infrastructure numérique envisagée (livre blanc téléchargeable depuis la page : https://projet.biblissima.fr/fr/projet/presentation) et dans la communauté Zenodo Biblissima+ via l’identifiant DOI 10.5281/zenodo.6611721 


Dernière mise à jour: October 24, 2023