Aller au contenu

Spécificités du projet Biblissima+

Présentation générale

L’observatoire des cultures écrites anciennes Biblissima+ est un projet d’infrastructure numérique consacrée à l’histoire de la transmission des textes produits de l’Antiquité à la Renaissance en Orient comme en Occident, quel qu’en soit le support et quelle qu’en soit la langue. Il crée un portail national offrant un accès unique et simple à des ressources électroniques hétérogènes (documentation écrite originale, collections d’images numérisées de sources, bibliographie et archives de la recherche la concernant). Il constitue également un environnement de travail proposant des chaînes d’outils pour enrichir, partager, réutiliser les corpus. Le but est de permettre des recherches nouvelles sur l’histoire de la transmission des textes et des bibliothèques reposant sur une méthodologie de traitement des données et des codes sources conformes aux objectifs de Science ouverte.

Biblissima+ fédère 16 établissements et une entreprise privée. Il réunit plusieurs équipes de recherche travaillant sur les textes, de l’Antiquité à l’édition numérique, une entreprise et le ministère de la Culture. Il fait partie des équipements structurants pour la recherche ÉquipEx+ sélectionnés en 2020 dans le cadre des Investissements d’avenir. L’équipe chargée du portail Biblissima+ proprement dit est hébergée par le Campus Condorcet, établissement porteur de l’ÉquipEx+. Les équipes partenaires, qui développent les contenus mis en interopérabilité ou diffusés via le portail (ressources scientifiques et outils innovants) sont organisées autour de 7 domaines d’innovation numérique et d’expertise ou « clusters ». Un système d’appels à projets ouvert à tous est destiné à produire de nouveaux jeux de données interopérables et de nouveaux outils à partir d’opérations conjointes de recherche, de documentation, de numérisation et de valorisation portant sur des collections historiques de manuscrits, d’imprimés anciens ou d’autres objets portant du texte.

Biblissima+ s’appuie sur les réalisations et l’expérience de l’ÉquipEx Biblissima (Bibliotheca bibliothecarum novissima : observatoire du patrimoine écrit du Moyen Âge et de la Renaissance, 2012-2021). Il hérite de l’infrastructure informatique mise en place pour gérer le portail Biblissima, de sa plateforme de référentiels data.biblissima, son moteur de recherche IIIF-Collections et de son service IIIF360 opéré avec le Campus Condorcet et Huma-Num. Il a pour objectif principal de maintenir et développer cette infrastructure et d’étendre potentiellement ses contenus à toutes les langues anciennes et à leurs supports. Il a aussi pour mission de veiller à leur intégration par les communautés par le partage des outils et des pratiques.

Organisation

Le projet s’articule autour de deux volets principaux.

Le premier (volet A), est centré sur la maintenance et le développement de l’infrastructure portail, de ses moteurs de recherche et de son référentiel, épine dorsale de l’infrastructure et composant clé des opérations de mise en interopérabilité. Un de ses principaux enjeux est la définition et la mise en œuvre de mécanismes génériques et stables d’agrégation et d’enrichissement de ressources. Ces mécanismes doivent être capables d’agréger les nouveaux types de données sans nuire à l’efficacité et à la simplicité d’un portail unique. Ils doivent aussi tenir compte des contraintes liées au besoin de s’articuler avec d’autres grandes infrastructures pour certains types de données, notamment la bibliographie ou s’adapter à des sources de données qui sont issues de bases de données évolutives. Il s’agit en somme de mettre au point un « système de mise à jour » en lien étroit avec les communautés notamment parce que toutes les dimensions ne peuvent être automatisées.

Le volet B regroupe toutes les contributions financées par le projet et développées par les équipes partenaires au sein des clusters. Dans ces 7 domaines d’innovation numérique, les communautés de chercheurs, les ingénieurs, conservateurs, étudiants partagent les questions, les outils, les standards et inventent de nouveaux outils. Tous reçoivent des moyens pour leurs recherches et leurs développements, mais aussi pour des rencontres annuelles : les semaines des clusters. De plus, les résultats, les questions, les idées des clusters sont mis en commun chaque année lors des Journées Biblissima+, qui permettent de faire dialoguer les clusters entre eux et de réfléchir au bon chaînage des outils. Ces journées sont couplées avec le Conseil scientifique international annuel, de façon à favoriser les interactions, l’approfondissement, la naissance d’idées nouvelles.

Les 7 domaines d'expertise de Biblissima+ sont organisés selon le cycle de travail sur les sources :

  • Cluster 1 – Acquisition des corpus de sources interopérables (images 2D et 3D) ;

  • Cluster 2 – Prise en compte et cherchabilité des données d’analyse des matériaux ;

  • Cluster 3 – Intelligence artificielle, reconnaissance de formes et d’écritures manuscrites ;

  • Cluster 4 – Traitement approfondi des systèmes graphiques et analyse des documents ;

  • Cluster 5 – Edition de sources selon les standards EpiDoc (pour l’épigraphie : cluster 5a) et TEI (pour les différentes typologies textuelles : cluster 5b) ;

  • Cluster 6 – Défis du patrimoine musical et MEI ;

  • Cluster 7 – Interopérabilité et analyse des textes.

Particularités de la gestion des données dans Biblissima+

Biblissima+ : un projet « FAIR by design »

La raison d’être de Biblissima+ étant d’offrir un portail d’accès unifié mettant en interopérabilité collections patrimoniales, archives de la recherche et littérature scientifique, le projet a appliqué les principes FAIR dès le départ et la première période de financement. La diffusion ouverte des données et métadonnées ainsi que le développement open source des outils numériques reste au cœur du positionnement scientifique et technique de Biblissima+. Les résultats de l’ÉquipEx, qu’il s’agisse des données descriptives de collections patrimoniales ou d’éditions, des référentiels d’autorité utilisés pour les décrire, d’outils et protocoles développés pour assurer le fonctionnement de l’infrastructure numérique seront diffusés avec des licences les plus ouvertes possibles (CC BY ou Licence ouverte Etalab 2.0), afin de favoriser l’accroissement de leur réutilisation et de leur rayonnement.

3 périmètres de données et de responsabilités à distinguer

L’organisation du projet permet de distinguer 3 périmètres de données en relation avec le statut des équipes productrices au sein du projet. On distingue ainsi les trois périmètres de données, qui sont aussi des périmètres de responsabilités :

  • Périmètre P1 : l’infrastructure logicielle du portail d’accès unifié et ses briques fonctionnelles ;

  • Périmètre P2 : les contributions des équipes partenaires dans le cadre des livrables du projet, qui constituent les autres « briques » de l’écosystème de ressources et d’outils de Biblissima+ ;

  • Périmètre P3 : les résultats d’opérations conjointes de recherche, de documentation, de numérisation et de valorisation financées après sélection de l’appel à manifestation d’intérêt1.

    Périmètres
    Périmètres de données du projet Biblissima+

PGD principal et PGDs particuliers

Étant donné l’ampleur du projet, la variété et l'hétérogénéité des données qui seront produites, le PGD de Biblissima+ définit des lignes directrices et des principes de choix qui s’appliquent aux 3 périmètres mais ne détaille que la gestion des données du périmètre géré et développé par l’équipe technique des trois ingénieurs employés par l’établissement porteur Campus Condorcet.

Contenu du PGD pour chaque périmètre de données

Le tableau suivant détaille chacun de ces périmètres et précise sa relation au PGD.

Périmètre Définition Contenu Relation avec le PGD et dépôt du document
P1 Infrastructure numérique (livrables pilotés par l’équipe portail au sein du volet A du projet) Interfaces web du portail / Moteurs de recherche / Cluster de données / Plateforme de référentiels d’autorité / Protocoles et scripts d’ingestion de données et de mise à jour des agrégations Contenu du PGD principal, rédigé et mis à jour par l’équipe Portail sous la responsabilité du bureau exécutif. Chaque version obligatoire dans le cadre de la convention avec l’ANR est déposée dans la communauté Zenodo (sous licence libre Etalab 2.0). Une version “vivante” est publiée en ligne dans le système de publication de documentation Mkdocs (voir en ligne : https://dmp.biblissima.fr/).
P2 Autres livrables des volets A et B, Outils de la boîte à outils de Biblissima Bibliothèques numériques / Catalogues et répertoires / Bases de données scientifiques / Corpus spécialisés / Éditions de textes / Outils de traitement scientifique des corpus / Tutoriels et vidéos de formation PGDs autonomes par livrables rédigés par leurs responsables scientifiques et techniques ou sous leur responsabilité. Ces documents ont vocation à être déposés dans la communauté Zenodo de Biblissima+, au plus tard à la fin du programme Biblissima+. Il est recommandé de le rendre librement consultable, mais ce n’est pas obligatoire.
P3 Productions liées aux opérations financées dans le cadre d’un appel à projets annuel Opérations conjointes de recherche, de documentation, de numérisation et de valorisation portant sur des collections historiques de manuscrits, d’imprimés anciens, ou d’autres objets portant du texte, associant au moins un établissement de conservation et un établissement d’enseignement et/ou de recherche. Un PGD est demandé dans le dossier de soumission de l’AMI. Ce document a vocation à être déposé dans la communauté Zenodo de Biblissima+ à l’échéancé dé la convéntion. Il est recommandé de le rendre librement consultable, mais ce n’est pas obligatoire. Seul l’accès pour les membres de Biblissima+ est requis.

Dernière mise à jour: October 24, 2023