Introduction

Mélanie Bunel

Jean-Luc Minel

Stéphane Pouyllau

Nicolas Sauret

2022/03/15

La science ouverte et ses enjeux

En quelques années, les principes d’une Science Ouverte (Open Science) centrée sur un accès libre, conceptualisé aux données de la recherche, puis regroupés sous l’acronyme Findable-Accessible-Interoperable-Reusable (FAIR)1, se sont fortement développés. Ils font suite au mouvement de l’accès ouvert des publications de la recherche qui s’était développé à la fin des années 1990. Si l’accès ouvert (Open Access) et la science ouverte des données peuvent être perçus comme des injonctions pouvant heurter les pratiques de recherche dans les disciplines académiques, cela fait presque deux décennies que les infrastructures de recherche en France2 dédiées aux disciplines des Sciences Humaines et Sociales (SHS) œuvrent à une traduction adaptée de ces principes aux pratiques des SHS. C’est dans ce contexte que sont nés, au tournant de 2010, les grandes plateformes de diffusion, d’archivage, d’accès et de découverte des publications et des données numérisées, puis numériques. Mixant à la fois les pratiques anciennes de construction d’instruments de recherche par les scientifiques et la conception de dispositifs d’accès à la documentation scientifique et technique, ISIDORE, puis NAKALA s’inscrivent à la fois dans ces pratiques en y incluant la force apportée par les principes du Web et plus particulièrement du Web sémantique(Berners-Lee et Fischetti 1999) développé dès la fin des années 90. Le Web, vu comme un ensemble de dispositifs socio-technique et comme socle aux instruments développés par les infrastructures de recherche françaises, a redéfini les principes de la circulation des données et des publications, puis des informations(Bermès, Isaac, et Poupeau 2013). C’est dans ce contexte, que s’inscrit notre travail.

Nous ne rappelons pas ici les principes FAIR qui sont abondamment décrits dans la littérature scientifique (Wilkinson et al. 2016; F. W. Group 2020; Wittenburg et Jong 2020), mais rappelons brièvement l’importance de pouvoir citer les données de la recherche dans une publication et donner les moyens de les trouver, de les découvrir et d’y accéder. Les recommandations concernant les principes de citations des données de la recherche dans les publications académiques ont été publiées dans la Joint Declaration of Data Citation Principles (JDDCP) soutenue par une centaine de sociétés savantes, d’éditeurs de revues scientifiques et d’agences de financement (D. C. S. Group 2014) 3.

Comme le souligne Cousijn, Kenall, et Ganley (2018), les scientifiques considèrent les données sur lesquelles sont étayés leurs raisonnements et résultats comme des objets de recherche à part entière.

“Data citation is based on the idea that the data underlying scientific findings or assertions should be treated as first-class research objects.”

Les figures 1.1 et 1.2 proposées par Cousijn, Kenall, et Ganley (2018) donnent un exemple d’une telle citation et les principes de résolution de la citation.

Figure 1.1 : (1) Citation des données dans un article; (2) Référence; (3) Identifiant unique. Exemple de Beresford NA, et al. (2016), extrait de Cousijn, Kenall, et Ganley (2018).
Figure 1.2 : Principes de résolution de la citation, extrait de Cousijn, Kenall, et Ganley (2018)

Le programme Huma-Num Science Ouverte (HNSO)

Le programme HNSO s’inscrit dans la politique pour la science ouverte promue par la Commission Européenne (CE) exposée dans le rapport final Turning Fair into Reality :

“The implementation of FAIR will be supported through the European Open Science Cloud (EOSC). The federation of data infrastructure and application of standards will enable the discovery and interoperability of data. Member States should support this movement by aligning their policies and investments in relation to FAIR data and Open Science. (…)Developments in the EOSC should align with [these] international movements and ensure that data are FAIR across disciplines and geographic boundaries beyond Europe.”(F. W. Group 2020)

L’objectif du programme HNSO est de « proposer une importante mise à niveau des services de publication et d’interopérabilité des données de la Très Grande Infrastructure de Recherche (TGIR) Huma-Num. L’objectif est double. Il s’agit : 1) d’améliorer les plateformes NAKALA (stockage et documentation de documents et données SHS) et ISIDORE (moteur de recherche pour les publications et données en SHS) afin de les rendre pleinement compatibles avec les principes FAIR, et 2) d’améliorer en même temps l’écosystème de travail intégré que propose la TGIR Huma-Num dans le but d’accroître la découvrabilité des données des SHS. » (Baude et Pouyllau 2019). Il part du constat fait après la refonte d’ISIDORE en 2018 et pendant celle de NAKALA en 2020 que les services numériques doivent aujourd’hui évoluer au fil des besoins en mixant à la fois des objectifs de long terme (stabilité, anticipation des ruptures technologiques et informatiques), et l’écoute des besoins exprimés par les communautés utilisatrices au fil de l’eau.

Le projet : polarisation sur les services ISIDORE et NAKALA

Pour aborder la mise en oeuvre du programme HNSO, la première phase du travail a été de recentrer les activités sur les deux services phares pour les données de recherche que sont NAKALA et ISIDORE, sous l’appellation de projet : ISIDORE et NAKALA pour la Science Ouverte.

Il ne s’agit pas de créer une nouvelle plateforme ou un nouveau service d’Huma-Num. Il s’agit davantage d’une feuille de route générique, élaborée au sein du Huma-Num Lab (HN Lab) en relation avec les pôle ACCES et DONNEES d’Huma-Num. Cette feuille de route comporte :

  • Une vision d’un écosystème des données pour la science ouverte, basée sur un état de l’art approfondi du paysage disciplinaire ;

  • Une méthodologie explicite et reproductible (un protocole collaboratif de recherche) ;

  • Des recommandations fonctionnelles pour un écosystème des données générique, recommandations que nous avons implémentées en spécifications techniques pour ISIDORE et NAKALA.

La mise en oeuvre du projet est effectuée en suivant un découpage en 4 « chantiers » (Figure 1.3). Tous les chantiers ont été initiés au lancement du projet et sont menés en parallèle:

Interconnexion entre les plateformes ISIDORE et NAKALA

Évolution des plateformes ISIDORE et NAKALA

Exploitation de ISIDORE et NAKALA

Formation et accompagnement

Figure 1.3 : Articulation des 4 chantiers du projet ISIDORE et NAKALA pour la Science Ouverte

Les chantiers du projet ISIDORE et NAKALA pour la Science Ouverte

La description de chaque chantier est organisée en chapitres qui explicitent notre méthode de travail. Celle-ci s’appuie sur les méthodes classiques de gestion de projet mais en se focalisant sur les spécificités, institutionnelles, organisationnelles et techniques des plateformes ISIDORE et NAKALA.

Interconnexion entre les plateformes ISIDORE et NAKALA

Les services ISIDORE et NAKALA sont les services phares de la TGIR Huma-Num, et une approche intégrée de ces deux plateformes a permis de construire une synergie vertueuse, susceptible d’assister au mieux les chercheurs en SHS dans leurs travaux. En revanche, si les interfaces homme-machine (IHM) des deux services ont été conçues pour être cohérentes entre elles, il n’en reste pas moins que leur complémentarité en terme de partage et de réutilisation des données est en réalité mal comprise et mal exploitée par les utilisateurs. C’est pourquoi le chantier “Interconnexion entre les plateformes ISIDORE et NAKALA” a pour finalité de décrire en quoi les outils ISIDORE et NAKALA sont des services complémentaires et constituent un couple pour le dépôt et la réutilisation des données SHS. Ce chantier permet de pointer les forces et les faiblesses de ce couple sur les aspects scientifiques, informatiques et documentaires. Ces analyses permettent d’asseoir une base solide sur laquelle l’équipe du programme HNSO peut s’appuyer pour la réalisation des autres chantiers afin d’améliorer l’offre de services sur les différents aspects cités et dans l’optique de faire de l’utilisation de ce couple un véritable allié dans la découvrabilité des données de la recherche en SHS.

Ce chantier est développé dans les chapitres Les pratiques de recherche et de dépôt de données, Caractéristiques de quelques infrastructures de dépôt de données de la recherche et Les plateformes ISIDORE et NAKALA.

Le chapitre Les pratiques de recherche et de dépôt de données cherche à dégager des éléments clefs quant aux pratiques des scientifiques dans le domaine du partage et de la réutilisation des données de la recherche.

Le chapitre Caractéristiques de quelques infrastructures de dépôt de données de la recherche étudie des infrastructures nationales et européennes existantes qui offrent des services de partage de données. Elle ne vise pas l’exhaustivité mais cherche à identifier les choix clefs effectués par les institutions en charge de ces infrastructures.

Le chapitre Les plateformes ISIDORE et NAKALA vise, de manière contrastée avec le chapitre précédent, à caractériser les spécificités du couple ISIDORE-NAKALA, qui constitue le socle de l’offre de services de la TGIR Huma-Num dans le domaine du partage et de la réutilisation des données de la recherche.

Évolution des plateformes ISIDORE et NAKALA

L’étude des interconnexions existantes entre les plateformes ISIDORE et NAKALA à l’aune des pratiques et besoins des chercheurs et de leur positionnement dans le paysage actuel des plateformes assoie un état des connaissances indispensable pour alimenter les réflexions du chantier « Évolution des plateformes ISIDORE et NAKALA ». Faire évoluer ISIDORE et NAKALA implique tout d’abord de considérer leurs usages par les communautés SHS et de les analyser. Par ailleurs, il convient de s’interroger sur les potentialités des technologies implémentées et de leur caractère innovant ou obsolescent. Ainsi, en rappelant le contexte historique de la création des plateformes ISIDORE et NAKALA, sur les choix scientifiques, documentaires et informatiques, en croisant l’expérience des ingénieurs avec des activités de veille technologiques et en restant à l’écoute des besoins des utilisateurs, ce chantier vise à la création de nouvelles fonctionnalités avec pour objectifs 1) de mettre à niveau chacune des plateformes de façon individuelle sur les plans scientifique, informatique et documentaire, et 2) de renforcer leur complémentarité en imaginant de nouveaux points de contact.

Ce chantier est constitué des chapitres Réflexion pour l’exploration des usages de NAKALA et ISIDORE au sein des communautés SHS et Proposition de nouvelles fonctionnalités.

Le chapitre Réflexion pour l’exploration des usages de NAKALA et ISIDORE au sein des communautés SHS engage une réflexion sur la mise en place d’outils ou de méthodes d’investigation sur les plans quantitatifs et qualitatifs des usages des plateformes ISIDORE et NAKALA par la communauté d’utilisateurs ainsi que sur la mise en oeuvre d’études des demandes et besoins principaux qui émergent de ces communautés, en vue d’établir une politique d’évolution des plateformes plus en adéquation avec ces communautés.

Le chapitre Proposition de nouvelles fonctionnalités établit une méthodologie de travail destinée à réfléchir à la création de nouvelles fonctionnalités à développer pour ISIDORE et NAKALA dans le cadre du programme HNSO.

Exploitation de ISIDORE et NAKALA

Les plateformes ISIDORE et NAKALA s’appuient sur l’implication de tiers fournisseurs de données. En effet, la plateforme de stockage NAKALA est alimentée par des utilisateurs déposants de données de recherche et le moteur de recherche ISIDORE doit moissonner des sources de données déjà existantes soit sur NAKALA soit sur d’autres entrepôts de données. Ce chantier « Exploitation de ISIDORE et NAKALA » propose d’explorer les différents contenus de ces bases de données d’un point de vue quantitatif et qualitatif par une cartographie à la fois de la provenance des sources et des disciplines représentées. Cette exploration est complétée par une description du processus d’ingestion des données, de leur modération et leur gestion au quotidien en relation avec les tiers. Par ailleurs, un accent important est apporté à l’étude de l’enrichissement sémantique grâce à l’ingestion de référentiels qui permet d’assurer une découvrabilité optimale des données.

Ce chantier est constitué des chapitres Études des sources de données dans ISIDORE et NAKALA,Référentiels, Concepts, Définitions et Administration, Les référentiels utilisés par ISIDORE et NAKALA et Administration des référentiels utilisés dans ISIDORE.

Le chapitre Études des sources de données dans ISIDORE et NAKALA propose une étude des sources moissonnées par ISIDORE et un panorama descriptif des collections de NAKALA dans l’optique d’envisager une meilleure interaction entre les deux plateformes, en vue d’élaborer une politique de choix de sources.

Le chapitre Référentiels, Concepts, Définitions et Administration présente les principaux types de référentiels et les principes d’administration qui les régissent.

Le chapitre Les référentiels utilisés par ISIDORE et NAKALA décrit les référentiels exploités par ISIDORE et NAKALA.

Le chapitre Administration des référentiels utilisés dans ISIDORE décrit les différentes procédures d’administration et d’utilisation des référentiels ISIDORE et NAKALA.

Formation et accompagnement

Ce chantier est en cours de réflexion.

Objectif et stratégie de diffusion de l’ouvrage

Cet ouvrage s’inscrit comme un projet à part entière du programme HNSO et constitue le point de départ de l’ensemble des activités qui seront mis en oeuvre tout au long de ce programme. Les différents chapitres qui le construisent permettent de mettre à plat les connaissances actuelles à la fois sur l’écosystème des données de recherche en SHS et à la fois de réaliser un bilan technique, scientifique et documentaire des deux plateformes des données de la TGIR Huma-Num que sont ISIDORE et NAKALA.

Il permet aussi de soutenir une réflexion plus globale autour de la question des systèmes d’information documentaire pour les données de la recherche en SHS à un moment où les pratiques de recherche sont ré-interrogées dans un contexte de Science Ouverte.

L’écriture de cet ouvrage a débuté en 2021 avec une diffusion sur deux supports :

Terminologie et concepts

Avant de nous engager dans la description des différents chantiers, nous allons préciser notre terminologie et les concepts employés dans les différents chapitres. Nous tenons à souligner qu’il ne s’agit pas de redéfinir des notions connues dans le domaine de l’information scientifique et technique mais plutôt de préciser les significations que nous donnons, par exemple, à certains termes comme « données », « utilisateurs » afin d’éviter tout malentendu.

Données de la recherche

Pour définir les données de la recherche, nous nous basons sur la définition de l’Organisation de Coopération et de Développement Economiques (OCDE) de 2006 :

« La donnée de la recherche est définie comme l’enregistrement factuel (chiffres, textes, images et sons), couramment considérée dans la communauté scientifique comme nécessaire pour valider des résultats de recherche. » (Ostojic, Sugimoto, et Durco 2017).

Concrètement il peut s’agir de données quantitatives, textuelles, iconiques, etc. Les « données » d’un linguiste peuvent être des écrits ou des discours, des enregistrements oraux ; les « données » d’un historien peuvent être des sources archivistiques, archéologiques, épigraphiques, iconographiques, littéraires ; les « données » d’un anthropologue rassemblent les notes d’un carnet de terrain, des photographies ou des vidéos, etc.

Afin de mieux appréhender le concept de donnée, nous reprenons les propositions de Schöpfel (2018) qui explicite le concept de donnée définit par l’OCDE selon 4 dimensions (Figure 1.4):

La nature factuelle aborde la typologie de la donnée, et nous invite à nous questionner sur une classification des données. L’observation des plateformes de données existantes nous démontre qu’il n’existe pas une typologie, mais une hétérogénéité de typologies ;

La communauté est une dimension fondamentale du concept de la donnée puisqu’elle lui associe un aspect culturel, qui se manifeste en termes d’outils et de méthodologie utilisés pour la créer ou en termes de codes disciplinaires ;

La finalité est une dimension importante à prendre en compte car elle permet de s’interroger sur l’objectif de la donnée, le but de son existence, sont utilité etc. ;

L’enregistrement aborde l’aspect technique de la donnée avec notamment les notions de standardisation de la donnée ou encore d’interopérabilité (métadonnées, normalisation, identifiants pérennes etc.) sur lesquelles il est essentiel de s’attarder dans la mise en oeuvre de notre projet.

Figure 1.4 : Les quatre dimensions du concept des données de la recherche, extrait de Schöpfel (2018)

Par ailleurs, dans ce projet, nous nous focalisons sur le partage et la réutilisation des données de la recherche. Ces deux étapes font partie intégrante du cycle des données de la recherche (Figure 1.5).

Dans ce cycle, le partage des données correspond à la phase de dépôt des données facilitant son accès et sa réutilisation. C’est à ce moment que le choix de l’entrepôt est réalisé. La notion de partage est renforcé par le choix de la licence d’utilisation qui doit aussi être explicitée4 à cette étape5.

La phase de réutilisation des données de la recherche doit permettre de publier de nouvelles recherches. Sur ce point, Pasquetto, Randles, et Borgman (2017) précise que les données utilisées et citées par le chercheur ou·la chercheuse qui les a créées relève de l’utilisation de la donnée et non pas de réutilisation, même si ce même chercheur l’utilise pour des productions différentes. Ce n’est de la réutilisation que lorsqu’elle est cherchée, trouvée et utilisée par d’autres chercheurs dans d’autres projets. Ce détail est important car il peut faire parti des indicateurs de réutilisation des données de NAKALA à mettre en place.

Figure 1.5 : Cycle de vie des données de la recherche, inspiré de DoRANum (2021)

Utilisateur

Nous désignons par le terme « utilisateur » toute personne qui accède à une plateforme de recherche de publication et/ou de jeux de données. Dans leur étude sur les pratiques des chercheurs dans la recherche d’information (Gregory, Cousijn, et Groth 2019), les auteurs soulignent que :

“data do not flow easily between users, situations and disciplines,(…). Instead, they rely on dynamic relationships between people, context and technology. (…) Researchers are not only data producers, but they also act as consumers, curators and evaluators of data.”

Un utilisateur peut donc au cours du temps avoir plusieurs rôles. Dans ce rapport, nous nous focaliserons sur les rôles de consultants et sur celui de déposants des données de la recherche.

Donnée déposée

Une « donnée déposée » correspond à la granularité du dépôt dans une infrastructure dédiée au dépôt et à la réutilisation des données de la recherche. La granularité dépend du choix du déposant, qui peut décider de déposer en tant que « donnée déposée » un seul fichier complété par des métadonnées, ou au contraire plusieurs fichiers (texte, image, etc.) complétés par des métadonnées. En français, il n’existe pas de terme stabilisé pour désigner une « donnée déposée », alors qu’en anglais le terme de Dataset semble s’imposer. Cependant, plusieurs disciplines en SHS s’accordent pour désigner « données » (jeux de données, données déposées, etc), le couple formé par un ou des fichiers (sériels ou pas) et un certain nombre de métadonnées (contenant à la fois des informations descriptives et d’analyse scientifique)(Pouyllau 2014).

Référentiels

Se référer au chapitre Référentiels, Concepts, Définitions et Administration.

(Cycle de vie des données de la recherche, inspiré de DoRANum 2021): Images/cycle_données.JPG “fig:” {#fig:cycle } [FORCE11]: https://www.force11.org/ [articles de données]: http://data.loterre.fr/ark:/67375/TSO-JCX2HR5K-4

Références

Baude, O., et S. Pouyllau. 2019. « Projet HNSO, Réponse à l’AAP Fonds National pour la science ouverte ».
Bermès, Emmanuelle, Antoine Isaac, et Gauthier Poupeau. 2013. Le Web sémantique en bibliothèque. Bibliothèques [Ressource électronique]. - Paris : Cercle de la librairie, 20XX-. Paris, France: Éd. du Cercle de la librairie.
Berners-Lee, T., et M. Fischetti. 1999. Weaving the Web : The original design and ultimate destiny of the World Wide Web by its inventor. Harper Business.
Cousijn, H., A. Kenall, et E. Ganley. 2018. « A data citation roadmap for scientific publishers ». Scientific Data 5: 180‑259.
DoRANum. 2021. « Enjeux et Bénéfices : Le cycle de vie des données de recherche ». 2021. https://doranum.fr/enjeux-benefices/le-cycle-de-vie-des-donnees-de-recherche/.
Gregory, K., H. Cousijn, et P. Groth. 2019. « Understanding data search as a socio-technical practice ». Journal of Information Science. https://doi.org/10.1177/0165551519837182.
Group, Data Citation Synthesis. 2014. « Joint declaration of data citation principles ». https://doi.org/10.25490/a97f-egyk.
Group, FAIR Working. 2020. « Six Recommendations for Implementation of FAIR Practice ». https://doi.org/10.2777/986252.
Ostojic, D., G. Sugimoto, et M. Durco. 2017. « The Curation Module and Statistical Analysis on VLO Meta-data Quality ». Selected papers from the CLARIN Annual Conference 2016, 90‑101.
Pasquetto, I., B. Randles, et C. Borgman. 2017. « On the Reuse of Scientific Data ». Data Science Journal 16): 1‑8. http://doi.org/10.5334/dsj-2017-008.
Pouyllau, S. 2014. « Les digital humanities ont-elles existé ». Édité par Fyp édition. Olivier Le Deuff.
Schöpfel, J. 2018. « Hors norme ? Une approche normative des données de la recherche ». Revue COSSI. https://hal.archives-ouvertes.fr/hal-01979798.
Wilkinson, M., M. Dumontier, I. Aalbersberg, et al. 2016. « The FAIR Guiding Principles for scientific data management and stewardship. » Scientific Data 3: 160018. https://doi.org/10.1038/sdata.2016.18.
Wittenburg, P., et F. de Jong. 2020. « State of FAIRness in ESFRI Projects ». Data Intelligence 2 (1-2): 230‑37.

  1. Il est convenu de traduire par : faciles à trouver, accessibles, interopérables et réutilisables, à propos des données de la recherche.↩︎

  2. Huma-Num, OpenEdition, Progedo, Métopes et avant Adonis, Corpus-IR, les centres de ressources numériques du CNRS, Revues.org, etc.↩︎

  3. Créé en 2011, [FORCE11] regroupe des chercheurs, des bibliothécaires, des archivistes, des éditeurs et des bailleurs de fonds de la recherche ; l’objectif est de faciliter la transition vers une meilleure création et un meilleur partage des connaissances.↩︎

  4. Conformément aux principes FAIR.↩︎

  5. Une des pratiques assez récentes en matière de partage des données est la publication de datapapers. Ce sont des « [articles de données] » qui décrivent un jeu de données en retraçant le processus et méthodologie de collecte et de traitement. Cette description participe de la validité et de la fiabilité du jeu de données, nécessaires à la réutilisation des données dans d’autres études.↩︎