Caractéristiques de quelques infrastructures de dépôt de données de la recherche

Mélanie Bunel

Jean-Luc Minel

Stéphane Pouyllau

Nicolas Sauret

2022/03/15

Introduction

Un entrepôt (ou dépôt) de données1 est “une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision[Espinasse (2021)]2. Il existe un très grand nombre de dépôts de données de la recherche. Le catalogue Re3Data3 en référence 2774 4. Il fournit un moteur de recherche et une API qui permettent de filtrer ou de parcourir le catalogue par discipline, pays, licence, etc.5 (Buddenbohm et al. 2021). De même, FAIRsharing.org6 dénombre une liste de 1797 dépôts7 qu’il est possible de parcourir suivant différents critères. Tous ces dépôts de données de la recherche présentent des caractéristiques différentes selon qu’elles sont gérées par des institutions académiques (Harvard Dataverse, Dimonea de l’EHESS), ou privées (Figshare), disciplinaires (Pangea, CLARIN), multidisciplinaires (Dryad, Figshare, Mendeley, Zenodo) ou dédiées à un seul projet (CERN Open Data Portal). Le thésaurus ‘Science Ouverte’ de l’INIST-CNRS8 définit 7 types d’entrepôts de données ouverts: archive ouverte, dépôt d’archive OAI, entrepôt agrégateur, entrepôt certifié, entrepôt disciplinaire, entrepôt institutionnel et entrepôt recommandé.

Il est important de souligner, à l’instar de nombreux auteurs (Borgman et al. 2016; Karasti et Blomberg 2017), que ces infrastructures techniques doivent être considérées comme des maillons de ce que Borgman, Darch, et Golshan (2018) appellent des “Infrastructures de connaissances” (Knowledge Infrastructures), c’est-à-dire des “robust networks of people, artifacts, and institutions that generate, share, and maintain specific knowledge about the human and natural worlds”(Edwards et al. 2006), et non comme des boîtes noires dans lesquelles des données sont déposées puis recherchées.

Dans les prochaines sections, 3 types d’infrastructures de connaissances sont décrites selon l’angle institutionnel, et selon qu’elles sont administrées par une institution locale, nationale ou européenne. Les descriptions de ces infrastructures s’appuient sur les sites web de celles-ci, sur des rapports ou articles publiés dans des revues scientifiques et sur le rapport du COSO de 2020 intitulé “Étude comparative des services nationaux de données de recherche Facteurs de réussite” (Hugo 2020).

Infrastructures locales

Infrastructure PGP

Sur la base du logiciel Electronic Data Archive Library (e!DAL) 9 (Arend et al. 2014, 2020), l’Institut Leibniz de Génétique végétale et recherche sur les plantes cultivées (IPK)10 et le réseau allemand de phénotypage des plantes (DPPN) ont conjointement initié le Plant Genomics & Phenomics (PGP) Research Data Repository 11 comme une infrastructure dédiée aux données de la recherche en génomique et en phénomique végétales. Bien que l’infrastructure PGP (Arend et al. 2020) soit dédiée aux données de la recherche en génomique et en phénomique végétales, ses caractéristiques, et notamment le fait qu’elle soit une instance du logiciel e!DAL, sont intéressantes car celui-ci n’est pas dépendant du type de données entreposées. Le référentiel couvre notamment les ensembles de données interdomaines, qui ne sont pas publiés dans des dépôts publics pour des raisons disciplinaires ou du volume de données, comme le phénotypage des images, données de génotypage, visualisations de modèles morphologiques, et les données de la spectrométrie de masse, ainsi que les logiciels et les documents.

Le PGP Repository fournit actuellement 200 datasets qui peuvent être référencés via des DOI et qui sont annotés avec des métadonnées techniques. Pour garantir l’accès aux données, le PGP fournit des landing pages au format JSON-LD. De ce fait, les moteurs de recherche qui suivent les recommandations de schema.org12, comme celles de Google, Microsoft et Yandex indexent ces pages. En outre, les données sont moissonables via un entrepôt OAI-PMH. L’infrastructure PGP est acceptée en tant que dépôt institutionnel pour les revues Scientific Data Nature Publishing Group et GigaScience (Oxford Academic) et est enregistré dans re3data.org, FAIRsharing.org, OpenAIRE, et DataCite.

Les concepteurs de e!DAL 13 (Arend et al. 2014) opposent 2 types d’architecture (Figure 4.1) et plaident pour une infrastructure sur site (Data Publication on Premises) plutôt que pour une infrastructure de services (Data Publication as a service).

Figure 4.1 : Deux types d’architecture, extrait de Arend et al. (2020).
Figure 4.2 : Les différents formats d’export des métadonnées, extrait de Arend et al. (2020).

L’architecture du type Data Publication on Premises est préférée pour des raisons de coûts, de problèmes liés au volume de données à transmettre mais surtout sur l’argument que cette solution permet à une institution de conserver l’intégralité de ses droits sur les données entreposées. Cet argument est mis en avant par plusieurs institutions. Ainsi l’EHESS a fait un choix de ce type avec la plateforme Didomena 14 de même que l’Université de Lorraine avec la plateforme DOREL 15.

Le logiciel e!DAL 16 offre plusieurs fonctionnalités intéressantes :

  • L’identifiant ORCID est systématiquement utilisé pour identifier un auteur. e!DAL utilise l’API REST du registre ORCID pour fournir la possibilité de rechercher l’ORCID d’un nom d’auteur. En outre, il est possible de valider si un ORCID saisi appartient au nom correspondant afin d’éviter tout lien accidentel avec un mauvais ORCID. Toutes ces fonctions API ont été intégrées dans l’interface graphique de l’outil de soumission des données ;

  • Une landing page est générée pour tout dépôt. Cette page contient des informations en JSON-LD et en HTML qui sont interprétables par les moteurs de recherche usuels;

  • Un DOI est attribué à chaque dataset;

  • Différents formats conformes aux standards sont proposés pour l’export des métadonnées (Figure 4.2);

  • Le protocole d’authentification est celui proposé par OAuth (Hardt 2012).

En 2018, le Forschungszentrum Jülich17 a installé son dépôt e!DAL en s’appuyant sur le Julius-Kühn Institute et le Helmholtz Centre München18.

Infrastructures nationales

Digital Archiving and Networked Services (DANS)

Fondé en 2005 par l’Académie royale néerlandaise des arts et des sciences (KNAW) et l’Organisation néerlandaise pour la recherche scientifique (NOW), DANS19 est en charge de la gestion des données de recherche numériques en sciences humaines et sociales provenant des organisations qui l’ont précédé. Les services de base du DANS comprennent Electronic Archiving System (EASY)20 pour l’archivage à long terme, DataverseNL21 comme service de dépôt pour les universités, les instituts de recherche et l’enseignement supérieur, et NARCIS22, le portail national d’information sur la recherche (K.Doorn 2020). DANS-EASY a reçu une certification CoreTrustSeal23, qui évalue la fiabilité des référentiels selon seize exigences. Ces exigences portent sur l’infrastructure organisationnelle, la gestion des objets numériques et la technologie sur laquelle repose DANS-EASY.

En 2014, DANS a créé Research Data Netherlands24 une alliance visant à promouvoir les meilleures pratiques en matière de gestion et de préservation des données en partenariat avec d’autres fournisseurs néerlandais d’archives de données et d’infrastructures de recherche. DANS est impliqué dans de nombreux réseaux nationaux et internationaux tels que l’European data infrastructure for scientific research (EUDAT)25, l’Advanced Research Infrastructure for Archaeological Dataset Networking (ARIADNE)26, l’European Open Science Cloud (EOSC)27 et European Holocaust Research Infrastructure (EHRI)28.

DANS est organisé en 3 services: “Projets et politique”, “Archives et Support”, “Recherche et Innovation”, qui regroupent 58 personnes dont les activités sont coordonnées par le directeur de DANS. La gouvernance de DANS s’appuie sur un comité de pilotage, un comité consultatif (advisory board), un comité consultatif spécifique à NARCIS et un comité consultatif spécifique à DataverseNL. Le comité de pilotage de DANS supervise la gestion et le fonctionnement du réseau et des politiques menées par le directeur, ainsi que les résultats obtenus. Le comité consultatif fait part de ses recommandations en matière de stratégie et de politique générale auprès du comité de pilotage. Le comité consultatif propre à NARCIS oriente les choix de la direction de DANS au sujet du développement et du fonctionnement de NARCIS. Il est composé de représentants de 7 universités et de la bibliothèque nationale néerlandaise. Le comité consultatif spécifique à DataverseNL a pour objet de conseiller la direction de DANS sur les axes stratégiques de développement. Les 13 institutions partenaires y sont représentées (Figure 4.3)

Figure 4.3 : Instances de gouvernance de DANS, extrait de Hugo (2020).

En 2020, Peter Doorn, directeur de DANS, a publié une étude sur la montée en puissance de la plateforme EASY entre 2007 et 2019 (K.Doorn 2020), nous reprenons ci-dessous ses conclusions les plus intéressantes pour le projet HNSO.

Figure 4.4 : Croissance du nombre de datasets dans DANS EASY, 2007-2019, extrait de K.Doorn (2020).
Figure 4.5 : Nombre de datasets dans DANS-EASY, en fonction des disciplines, 2007-2019, extrait de K.Doorn (2020).
Figure 4.6 : Pourcentage de datasets dans DANS-EASY, en fonction des disciplines, 2007-2019, extrait de K.Doorn (2020).

La figure 4.4 illustre la progression du nombre de datasets29 déposés dans EASY. Après la phase de démarrage, à partir de 2012, le nombre de dépôts croît d’environ 15 à 20% par an, puis connaît une brusque accélération avec 30 à 40% de croissance, à partir de 2017. K.Doorn (2020) explique cette croissance par les conventions passées avec les universités et les institutions de recherche pour que le dépôt EASY soit utilisé comme second dépôt par ces organisations. Ces dépôts sont réalisés automatiquement sous la forme de paquets (bulk) échangés entre le dépôt de l’organisation et le dépôt EASY.

Les figures 4.5 et 4.6 illustrent la répartition des dépôts en fonction des disciplines, sachant qu’un même dépôt peut être catégorisé dans plusieurs disciplines.

Figure 4.7 : Les 5 datasets_ les plus téléchargés dans DANS-EASY en 2017 et 2019, extrait de K.Doorn (2020).

Les Sciences Sociales représentent 30% des dépôts et les Humanités (hors Archéologie) un peu moins de 10%. L’importance des dépôts en archéologie s’explique par plusieurs facteurs. En premier lieu, à partir de 2004, l’agence en charge de la politique de gestion des ressources archéologiques Cultural Heritage Agency of the Netherlands (RCE)30 a entreprit une campagne de rétro-numérisation qui a conduit au dépôt de 30 000 data sets. En second lieu, le RCE a rendu obligatoire le dépôt des données pour les chantiers archéologiques entrepris aux Pays-Bas. En dernier lieu, DANS a lancé une campagne de dépôts des ressources archéologiques privés (Portable Antiquities Netherlands (PAN) 31), qui représentent actuellement environ 23 000 datasets.

De ce fait, DANS répond à 2 finalités:

  • d’une part, prendre en charge le dépôt de données pérennes indépendamment d’une réutilisation de ces données à court ou moyen terme

  • d’autre part prendre en charge le dépôt de données de la recherche pour répondre à des besoins de réutilisation de ces données dans l’optique de la Science Ouverte.

Concernant le type d’accès aux dépôts, K.Doorn (2020) note une évolution importante dans le choix des déposants. Ainsi en 2012, 50% des dépôts étaient en accès ouvert, alors qu’en 2016, il était de 70%, ce qui est interprété comme un signe de la prise de conscience de l’importance d’une science ouverte. Il faut aussi noter que depuis 2016, DANS n’exige plus que les utilisateurs s’enregistrent préalablement pour télécharger des données déposées en accès ouvert dans EASY. En terme d’usage, le nombre annuel d’utilisateurs enregistrés est d’environ 4000 et 312 472 datasets ont été téléchargés entre 2007 et 2019. Ces téléchargements sont différemment répartis suivant les disciplines. Les datasets en Sciences Sociales et dans les Humanités représentent environ 4000 téléchargements par an. On note une stabilité des datasets les plus téléchargés (Figure 4.7) qui sont des données qui relèvent des Sciences Sociales.

Dans le cadre du projet européen Fostering Fair Data in Practices in Europe (FAIRsFAIR)32, le réseau DANS a collaboré avec le Digital Curation Center (DCC)33 et Middlesex University à la production de l’outil FAIR-Aware 34, outil d’auto-évaluation aux principes FAIR développé par DANS NL, Digital Curation Center et l’université de Brême, qui vise à sensibiliser les chercheurs et gestionnaires de données à l’importance des principes FAIR (Hugo 2020).

Les données déposées dans DANS-EASY sont accessibles via le moteur de recherche NARCIS. L’objectif est d’offrir aux utilisateurs les outils pour lier l’ensemble de leurs productions de manière à développer les possibilités de “research in context” : liens entre données, publications, chercheurs, financement et organisation.

DANS illustre parfaitement la notion d’infrastructure de connaissances. Cette institution interagit avec de nombreux acteurs publics et privés dans le monde entier. Il s’agit notamment des fournisseurs de moteurs de recherche, des réseaux de bibliothèques, des portails du patrimoine culturel et des sites web qui recueillent et exploitent les données du DANS. Plus précisément, DANS est un nœud dans les infrastructures de connaissances des communautés dont elle acquiert les données et de celles qui les consomment. DANS déploie la technologie, définit les politiques, rédige les contrats et gère les ensembles de données qui lui sont confiés. Elle crée également des communautés en sollicitant des ensembles de données, des formations et des actions de sensibilisation. Comme ces communautés évoluent sur de longues périodes, les archives de données numériques assurent la continuité, en reliant les différentes générations d’utilisateurs. Néanmoins, ces infrastructures sont coûteuses, demandent beaucoup de travail et leur gains sont difficiles à mesurer. Par ailleurs, leur construction prend de nombreuses années et elles peuvent se dégrader rapidement faute d’investissement continu (Borgman, Darch, et Golshan 2018).

UK Data Service

UK Data Service (UKDS)35 fait parti d’un service global d’accès à des données en sciences sociales, économiques et démographiques du Royaume-Uni basée à l’Université de Essex et partenaire principal du UK Data Archive (UKDA)36. Ce service, créé en 2012, est financé par le Economic and Social Research Council 37. L’UKDA fonctionne comme un département de l’université d’Essex. Son activité est supervisée au niveau de l’université, le chef de département en assure la supervision et la gestion. Sur sa page d’accueil, le UK Data Service se présente comme le plus gros dépôt de données SHS au Royaume-Uni: “Explore the UK’s largest collection of social, economic and population data resources”.

Les données proviennent de différentes sources: les autorités statistiques nationales, les services gouvernementaux britanniques, les organisations intergouvernementales, les instituts de recherche ou encore les chercheurs individuels. Elles sont de différentes natures: des “micro-données” provenant d’enquêtes à l’échelle individuelle ou des “macro-données” ou données agrégées issues d’enquêtes à des échelles plus importantes (régionales, nationales voire internationales).

UKDS propose un ensemble de services très complet illustré par la figure 1.1. Parmi ces services, la plateforme UKDS permet le dépôt et partage de données ainsi que la consultation de données via deux services principaux:

  • un entrepôt de données “Archiving and sharing research data” appelé ReShare38 certifié “Trusted Digital Repository” par le CoreTrustSeal39, à travers lequel l’hébergement et le développement du service de stockage sont effectués. Les données issues de datapapers peuvent être directement déposées dans ReShare. Ce service est utilisable sous conditions et n’est pas accessible à tout public;

  • un catalogue de données dont l’exploration est possible via le moteur de recherche Discover 40.

Figure 4.8 : Synthèse des services proposés par différentes plateformes de données nationales. Zoom sur UKDS encadré en rouge et DANS encadré en noir, extrait de Hugo (2020).

Le dépôt des données est un processus très contrôlé et le UKDS possède un service d’évaluation et d’acceptation des données qui permet d’orienter le déposant vers différentes solutions possibles pour déposer dans leur base de données:

Pour un déposant possédant un compte, il est possible de faire une proposition de dépôt de données via ce compte et selon un formulaire spécifique. Le dépôt passera d’abord par une phase de vérification et de validation avant d’être acceptée dans l’entrepôt;

Il est possible d’utiliser le service d’auto-dépôt ReShare décrit ci-dessus seulement pour les déposants inscrits sur la liste des membres autorisés;

Il est conseillé d’utiliser un référentiel institutionnel ou un autre lieu de dépôt si les deux premières solutions sont impossibles.

Lors du dépôt de données, le service propose trois niveaux d’accès que les déposants souhaitent en fonction de leur sensibilité: 1) Open Data, 2) Safeguarded data, 3) Controlled Data. Les deux derniers niveaux exigent des accréditations et authentifications des utilisateurs. Il est possible de retrouver sur le site Web du UKDS de nombreuses recommandations illustrées par une documentation très détaillée de bonnes pratiques pour la gestion, le partage et la consultation des données. Pour le dépôt, le service insiste notamment sur la nécessité de documenter au mieux les données partagées, dans le but de maximiser une réutilisation efficace par d’autres chercheurs, par l’utilisation de formats adéquats et l’ajout d’une contextualisation.

Sur le plan documentaire, le modèle de données est basé sur le standard DDI associé à un enrichissement SKOS grâce au thesaurus HASSET de 7500 concepts41, précurseur du thesaurus multilingue ELSST 42 développé par l’infrastructure européenne CESSDA (voir section [1.4.2]). Chaque objet est identifiable par un DOI. UK Data Service a inclut dans son modèle de données un objet “citation”, afin de faciliter la citation des jeux de données et encourage l’identification via ORCID.

Infrastructures européennes

CLARIN

Common Language Resources and Technology Infrastructure (CLARIN)43 est un European Research Infrastructure Consortium (ERIC)44 créé en 2012 avec neuf membres45 fondateurs. La tâche principale du consortium est de construire, d’exploiter, de coordonner et d’entretenir l’infrastructure de CLARIN ; il ne mène ni ne finance d’activités de recherche. CLARIN est l’une des infrastructures de recherche qui ont été sélectionnées pour la feuille de route européenne sur les infrastructures de recherche par l’ESFRI et le Forum stratégique européen sur les infrastructures de recherche. CLARIN a été créé avec le soutien financier de la Commission européenne par le biais du projet de la phase préparatoire de CLARIN (2008-2011), mais est maintenant entièrement financé par les pays participants. En 2016, CLARIN a reçu le statut de “Landmark” sur la nouvelle feuille de route. En 2017, le consortium CLARIN comprend 19 pays membres et 2 observateurs (dont la France) et a passé une convention avec l’Université Carnegie Mellon (États-Unis). CLARIN vise une collaboration inter-institutionnelle et inter-sectorielle, par exemple avec le secteur GLAM (galeries, bibliothèques, archives, musées) et avec l’industrie.

Actuellement, CLARIN fournit un accès aux données linguistiques numériques (sous forme écrite, parlée ou multimodale) pour les chercheurs en sciences humaines et sociales. CLARIN offre également des outils avancés pour découvrir, explorer, exploiter, annoter, analyser ou combiner ces ensembles de données, où qu’ils se trouvent. Une des particularités de CLARIN est de s’appuyer sur une fédération de centres en réseau qui distinguent trois types de services : des centres de dépôts de données linguistiques, des centres de services et des centres de connaissances. Les outils et les données des différents centres sont interopérables, de sorte que les collections de données peuvent être combinées et que les outils de différentes sources peuvent être enchaînés pour effectuer des opérations complexes afin de soutenir les chercheurs dans leur travail (CLARIN 2020).

Les centres de connaissances, au nombre de 9 en 2020 46, constituent un réseau (Knowledge Sharing Infrastructure (KSI)) dont une des missions est de réaliser la médiation (the glue) entre les infrastructures techniques et les utilisateurs. Ces centres peuvent se spécialiser dans certaines langues ou pour certaines technologies ou type de données. Les workshops organisés par les centres, et financés par le consortium CLARIN, sont considérés comme un instrument clef pour le partage des connaissances et pour le développement de nouvelles idées.

Les centres de dépôts peuvent se spécialiser dans une langue, une modalité (écrite ou orale), un type de données (lexicale, syntaxique, etc.) ou un type de traitement et s’engagent à être interopérables au sens ou ils doivent maintenir le protocole OAI-PMH pour l’échange des données. Les centres de dépôt s’engagent à respecter les principes FAIR. Le standard commun utilisé pour décrire les métadonnées est le Component Metadata Infrastructure (CMDI) et l’identifiant (persistent identifier) est un handle (Figure [4.9][8]).

Figure 4.9 : Fonctionnalités générales d’un centre de dépôt CLARIN, extrait de Jong et al. (2020).

Les données des centres de dépôts sont moissonnées et accessibles via le moteur de recherche Virtual Language Observatory (VLO)47 qui offre des fonctionnalités de recherche textuelles et des facettes de sélection. Néanmoins, dans leur article, les auteurs (Jong et al. 2020) précisent que la recherche dans un entrepôt de plus d’un million de ressources constitue un défi. Ils détaillent aussi plusieurs limitations qui tiennent aux principes mêmes de l’organisation de CLARIN. Ainsi, les auteurs notent que de nombreux corpus ayant été ajoutés aux dépôts nationaux ne peuvent toujours pas être identifiés dans le VLO à cause de l’absence de mots-clés ou de champ de description, de choix idiosyncrasiques ou vernaculaires utilisés pour les dénominations. De même, des informations sur les périodes temporelles, les annotations linguistiques et les licences d’utilisation sont absentes. L’hétérogénéité dans la granularité des datasets dont la taille peut varier d’un simple fichier à une archive contenant des milliers de fichiers soulève aussi des problèmes.

Un module de validation des métadonnées (Curation Module) a été développé (Ostojic, Sugimoto, et Durco 2017). Cette application contrôle un large éventail de critères (validité du schéma, présence de champs comme la langue et la disponibilité, etc.). Sur la base de ces contrôles, un score de qualité global est calculé. Une partie très spécifique de la validation des métadonnées consiste à vérifier la validité des liens. Ces liens peuvent prendre la forme d’un identifiant de ressource de forme unique ou d’un identifiant persistant (par exemple un handle ou un DOI). La pratique a montré qu’environ 10 % des 5,2 millions de liens ne pouvaient être résolus par le moteur de recherche VLO. C’est pourquoi le module de curation comprend un composant spécifique qui explore régulièrement tous les liens rencontrés et stocke le résultat de l’accès à ces liens dans une base de données. Les auteurs remarquent que ce problème est générique et que plusieurs institutions développent le même type d’applications (DataCite, Europeana). Ils proposent de fédérer ces différentes bases de données dans le cadre de l’EOSC.

Afin de mesurer la qualité de l’infrastructure, 12 indicateurs de performance Key Performance Indicator (KPI) ont été définis. Ces indicateurs forment un sous ensemble des 20 indicateurs de performance définis par le groupe de travail de l’ESFRI (Report 2019).

CESSDA

Le Consortium of European Social Science Data Archives (CESSDA) 48 est une infrastructure de recherche européenne. Il figure sur la feuille de route du Forum stratégique européen sur les infrastructures de recherche (ESFRI) depuis 2006 et constitue un Landmark depuis 2014. En 2017, le CESSDA est devenu un Consortium européen pour les infrastructures de recherche (ERIC). Le CESSDA compte 19 membres et 1 observateur; chaque pays doit désigner un fournisseur de services de données nationales (Dekker 2020).

Le catalogue CESSDA 49, créé en 2018, contient plus de 25 000 études (dont 19 000 en anglais). Un moteur de recherche offre la recherche dans les études en texte libre et il permet de filtrer sur la langue, le sujet, les années, le pays, l’éditeur (prestataire de services) et la langue des fichiers de données. Comme le catalogue ne contient que des métadonnées, il n’y a pas de problème de confidentialité ou de sécurité avec les données. Un utilisateur peut cliquer sur une étude pour accéder directement au fournisseur de services afin de consulter les données. Le modèle de données est basé sur le standard international DDI 50 et est enrichi grâce au thésaurus multilingue 51. Il n’est actuellement pas possible de moissonner le CDC.

Figure 4.10 : Chronologie des services offerts par CESSDA depuis 2018.

Dans un article publié en 2020 (Dekker 2020), R. Dekker directeur du CESSDA a évalué les services offerts (figure [4.10][9]) par CESSDA en les passant au crible des 27 recommandations publiées par le EC Expert Group on FAIR Data (FAIR Data 2018). Concernant le critère de Findability, l’auteur insiste sur la difficulté de construction du catalogue qui permet de rechercher un jeu de données. La réalisation de ce catalogue a duré 3 ans et a nécessité le développement d’outils spécifiques :” To produce a catalogue, CESSDA had to build a metadata harvester – collecting the metadata from the Service Providers. As these providers use different systems, we had to set up different end-points. Another tool was the metadata profile: we had to agree on the obligatory fields, based on the DDI-standard and ensure compatibility with other standards (e.g. schema.org, OpenAIRE, DataCite). For the filtering (closed selection of topics) we had to set the Vocabularies and we needed a multilingual thesaurus to support the searching. The technical and architecture specifications allow machine-reading of the catalogue”.

Enfin, R. Drekker note que les développements ne sont pas achevés notamment en ce qui concerne l’accès à des champs spécifiques des enquêtes (nom et valeur des variables utilisées dans les enquêtes), l’accès sécurisé et l’attribution d’un identifiant permanent.

Zenodo

Zenodo52 été créé en 2013 par le CERN dans le cadre du programme européen Horizon 2020, sous le nom OpenAIRE Orphan Record Repository, pour fournir aux chercheurs un lieu pour déposer des ensembles de donnée. En 2015, il a été renommé Zenodo. Une première caractéristique de Zenodo tient à la grande diversité du types d’objets qui peuvent y être déposés. Dans leur étude menée en 2017, Peters et al. (2017) recensent 26 types d’objets (de audiovisuel au working paper) sur un total de 142 131 enregistrements. La figure [4.11][10] illustre l’évolution des dépôts des principaux types d’objets. Les principaux types d’objets sont :

  • Les figures (68 701);

  • Les articles de revue (33 708);

  • Les logiciels (13 748);

  • Les actes de conférences (11 967);

  • les datasets (3 660).

Figure 4.11 : Évolution des dépôts des principaux types d’objets entre 2002 et 2016 (extrait de Peters et al. (2017)).

La seconde caractéristique est le versionnage des DOI. Elle a été développée en 2017 conjointement par l’équipe Zenodo, d’OpenAIRE et l’équipe B2SHARE d’EUDAT. Contrairement à d’autres entrepôts (comme Figshare), Zenodo construit de manière indépendante le DOI de chaque version sans utiliser de suffixe du type « v1 » ou « v2 », afin de ne pas inclure d’informations sémantique dans les DOI 53.

La troisième caractéristique est la notion de communauté. Zenodo permet de créer des communautés et offre des outils pour les gérer. Il est par exemple possible d’indiquer ce qui peut y être déposé ou non et son niveau d’accès : “open access” ou “restricted access”. Une communauté peut correspondre à un colloque, à un projet ou à une thématique spécifique d’un groupe d’utilisateurs. Il y a actuellement 6435 communautés. Les communautés offrent également l’accès à un entrepôt OAI-PMH facilitant l’interopérabilité des métadonnées.

Jusqu’en juillet 2019, Zenodo fournissait un service qui permettait d’afficher un Altimetric badge. Le badge indiquait sous la forme d’une roue colorée les discussions en ligne à propos des téléchargements d’un dataset. Ce service a été interrompu fin juillet 2019 suite à la demande de Altimetric.com de facturer ce service 54.

En 2019, Zenodo a annoncé un partenariat avec le dépôt de données ouvertes Dryad.

Europeana, focus sur le « Cultural Heritage »

Créée en 2008 et financée par la Commission Européenne, Europeana55 est une plateforme d’accès à des ressources numériques spécialisée dans le partage de collections de données du patrimoine culturel. Ce portail met à ce jour à disposition plus de 50 millions de ressources accessibles via un moteur de recherche. Parmi ces ressources, il est possible de retrouver des archives de bibliothèques ou de musées tels que des œuvres d’arts, des livres, de la musique et bien d’autres types d’objets dans de nombreuses langues provenant de 4000 institutions à travers l’Europe. Pour cela, les services d’Europeana ont développé une infrastructure, en partenariat avec des agrégateurs de données, élaborée sur un processus d’agrégation, d’ingestion, d’indexation, de normalisation et de publications de métadonnées, et basée sur le modèle de données. Cette infrastructure est construite selon une architecture intégrant le LOD (Nuno et al. 2017). De ce fait, certaines informations sont liées avec le thesaurus Art and Architecture (AAT) du Getty 56. De nombreux objets numériques sont accessibles grâce à l’intégration de l’IIIF 57. Europeana met aussi à disposition de nombreuses APIs 58 afin de permettre à toute autre organisation de pouvoir créer des applications basées sur la réutilisation de ses données.

L’acquisition du contenu d’Europeana est rendu possible grâce à deux méthodes: push (passive) et pull (active). La méthode push, qui consiste à laisser les agrégateurs « pousser » leur données sur la plateforme Europeana était la méthode privilégiée mais la méthode pull est devenue une approche vers laquelle les services d’Europeana souhaitent évoluer de plus en plus car elle permet de récupérer des collections de données issues des demandes des utilisateurs de la plateforme, et donc de travailler avec des fournisseurs de données pour une intégration plus ciblée des données (Scholz, Devarenne, et al. 2017).

Europeana a mis en place un système d’évaluation de la qualité du contenu des données et de ses métadonnées basé sur des « Tiers », autrement dit des niveaux de qualité59. Les Tiers vont de 1 à 4 pour le contenu des données, 1 étant le niveau de qualité le plus bas, et de A à C pour les métadonnées, faisant passer la plateforme Europeana d’un simple moteur de recherche (niveau A) à une plateforme de connaissances (niveau C).

Face à la diversité des utilisateurs de la plateforme, Europeana a conçu une infrastructure de recherche de l’information permettant de palier à l’hétérogénéité des schémas de recherche afin d’assurer une meilleure découvrabilité des ressources (Petras et al. 2017): 1) Un framework d’enrichissement sémantique des métadonnées 2) La création de collections thématiques.

En dépit des stratégies innovantes pour améliorer la recherche d’information, les auteurs de l’article de Petras et al. (2017) pointent ce qu’ils appellent le «paradigme de la boîte de recherche» qui doit être repensé dans le domaine de la recherche d’information du « Cultural Heritage ». Selon eux, l’analyse des comportements de recherche sont différents comparés à ceux du Web. Les utilisateurs vont principalement axer leur recherche sur les entités nommées ou les collections. Certains comportements démontrent même une recherche sans but précis à part l’exploration, comme une sorte de “promenade” sur la plateforme, attirés par la couleur des objets par exemple. L’intégration d’un graphe de connaissances permet de répondre à la recherche sur les entités, et des filtres spécifiques sont mis en place pour répondre aux autres types de recherche par palette ou liés à l’âge des œuvres.

Synthèse des principales fonctionnalités

Les tableaux [4.1][11] et [4.2] résument les principales fonctionnalités des infrastructures décrites dans ce chapitre. Les chiffres sur le nombre de datasets sont donnés à titre indicatif et ne sont pas nécessairement comparables 60. En effet, certains datasets peuvent ne contenir qu’un objet (une image, un texte, etc.) alors que d’autres peuvent regrouper plusieurs milliers d’objets.

Tableau 4.1 : Synthèse comparative des fonctionnalités des infrastructures
Infrastructure Nombre de datasets 61 Identifiant Métadonnées
e!DAL NP DOI DC
DANS 160 DOI DC
CLARIN 1 600 DOI CMDI
CESSDA 30,5 handle DDI
Europeana 58 000 agrégateur d’origine DC
UK Data Archive 8,1 DOI DDI
Zenodo 3,6 DOI DC
Tableau 4.2 :Synthèse comparative des fonctionnalités des infrastructures (Suite)
Infrastructure Thesaurus ORCID OAI-PMH Curation Métriques
e!DAL Non Oui Oui Non Oui
DANS Non Non Non Non Non
CLARIN Non Non Oui Oui Oui
CESSDA ELSST Non Non Non Non
Europeana AAT (Getty) Non Oui Oui Oui
UK Data Archive HASSET Oui Oui Oui Oui
Zenodo Non Non Oui Non Non

(Synthèse des services proposés par différentes plateformes de données nationales. Zoom sur UKDS encadré en rouge et DANS encadré en noir, extrait de Hugo 2020): Images/services_plateformes_données.JPG “fig:” {#fig:plateformes } [1.4.2]: #sec:system:europ:CESSDA {reference-type=“ref” reference=“sec:system:europ:CESSDA”} [8]: #fig:clarin {reference-type=“ref” reference=“fig:clarin”} [9]: #fig:cessdaservices {reference-type=“ref” reference=“fig:cessdaservices”} [10]: #fig:zenodoflow {reference-type=“ref” reference=“fig:zenodoflow”} [11]: #table:synthese {reference-type=“ref” reference=“table:synthese”} [4.2]: #table:synthese2 {reference-type=“ref” reference=“table:synthese2”} [Discover]: https://beta.ukdataservice.ac.uk/datacatalogue/studies/#!?Search=&Page=1&Rows=10&Sort=0&DateFrom=440&DateTo=2021

Références

Arend, D., P. König, A.Junker, U. Scholz, et M. Lange. 2020. « The on-premise data sharing infrastructure e!DAL: Foster FAIR data for faster data acquisition ». Gigascience 9.
Arend, D., M. Lange, J. Chen J, et al. 2014. « A framework to store, share and publish research data ». MC Bioinformatics.
Borgman, CL., P. T. Darch, et M. S. Golshan. 2018. « Digital Data Archives as Knowledge Infrastructures: : Mediating Data Sharing and Reuse ». JASIST, 1‑31. http://arxiv.org/abs/1802.02689.
Borgman, CL., P. T. Darch, A. E. Sands, et M. S. Golshan. 2016. « The durability and fragility of knowledge infrastructures: Lessons learned from astronomy ». Proceedings of the Association for Information Science and Technology 53: 1‑10. http://dx.doi.org/10.1002/pra2.2016.14505301057.
Borgman, CL., H. Van de Sompel, A. Scharnhorst, et H. van den Berg. 2015. « Who uses the digital data archive? An exploratory study of DANS ». Poceedings of the Association for Information Science and Technology, 1‑4. https://doi.org/10.1002/pra2.2015.145052010096.
Buddenbohm, S., M. de Jong, JL. Minel, et Y. Moranville. 2021. « Find Research Data Repositories for the Humanities - The Data Deposit Recommendation Service ». International Journal of Digital Humanities. https://doi.org/10.1007/s42803-021-00030-7.
CLARIN. 2020. « CLARIN in a nutshell ». 2020. https://www.clarin.eu/content/clarin-nutshell-0.
Dekker, R. 2020. « Social Data: CESSDA Best Practices ». Data Intelligence 2: 220‑29. https://doi.org/10.1162/dint_a_00044.
Edwards, P. N., S. J. Jackson, M. K. Chalmers, et al. 2006. Knowledge infrastructures: Intellectual frameworks and research challenges. Ann Arbor, MI: University of Michigan.
Espinasse, B. 2021. « Introduction aux entrepôts de données ». 2021. https://pageperso.lis-lab.fr/bernard.espinasse/Supports/DWDM/2-Intro-Entrepots-4p.pdf.
FAIR Data, European Commission Expert Group on. 2018. « Turning FAIR into reality, Final Report and Action Plan from the European Commission Expert Group on FAIR Data ». https://doi.org/10.2777/1524.
Hardt, D. 2012. « The OAuth 2.0 Authorization Framework (RFC 6749) ».
Hugo, C. 2020. « Etude comparative des services nationaux de données de recherche Facteurs de réussite, rapport du COSO ».
Jong, F. de, B. Maegaard, D. Fišer, D. Van Uytvanck, et A. Witt. 2020. « Interoperability in an Infrastructure Enabling Multidisciplinary Research: The case of CLARIN ». Proceedings LREC 2020. https://www.aclweb.org/anthology/2020.lrec-1.417.
Karasti, H., et J. Blomberg. 2017. « Studying Infrastructuring Ethnographically ». Computer Supported Cooperative Work (CSCW). https://doi.org/10.1007/s10606-017-9296-7.
K.Doorn, P. 2020. « Archiving and Managing Research Data : data services to the domains of the humanities and social sciences and beyond: DANS in the Netherlands ». Der Archivar 73(01): 44‑50. https://pure.knaw.nl/portal/en/publications/archiving-and-managing-research-data-data-services-to-the-domains.
Nuno, F., A. Isaac, G. Robson, J-B. Howard, et H. Manguinhas. 2017. « A Survey of Web Technology for Metadata Aggregation in Cultural Heritage ». Information Services & Use 37: 425‑36. https://content.iospress.com/articles/information-services-and-use/isu859.
Ostojic, D., G. Sugimoto, et M. Durco. 2017. « The Curation Module and Statistical Analysis on VLO Meta-data Quality ». Selected papers from the CLARIN Annual Conference 2016, 90‑101.
Peters, I., P. Kraker, E. Lex, C. Gumpenberger, et J. Gorraiz. 2017. « Zenodo in the Spotlight of Traditional and News Metrics ». Frontiers in Research Metrics and Analytics 2:13).
Petras, V., T. Timothy Hill, J. Stiller, et M. Gädde. 2017. « Europeana – a Search Engine for Digitised Cultural Heritage Material ». Datenbank Spektrum 17: 41‑46. https://link.springer.com/article/10.1007/s13222-016-0238-1.
Report, Working Group. 2019. « Monitoring of Research Infrastructures Performance ». https://www.esfri.eu/sites/default/files/ESFRI_WG_Monitoring_Report.pdf.
Scholz, H., Devarenne, et al. 2017. « Europenana content strategy ». Europeana Foundation.
Wittenburg, P., et F. de Jong. 2020. « State of FAIRness in ESFRI Projects ». Data Intelligence 2 (1-2): 230‑37.

  1. En anglais, “Datawarehouse”↩︎

  2. D’après la définition de Inmon (1992). Dans sa présentation, Espinasse présente les différents types de données comme suivant:

    • Thématique ou orientées sujet : un entrepôt de données rassemble et organise des données associées aux différentes structures fonctionnelles de l’entreprise, pertinentes pour un sujet ou thème et nécessaire aux besoins d’analyse ;
    • Intégrées : les données résultent de l’intégration de données provenant de différentes sources pouvant être hétérogènes;
    • Historisées : les données d’un entrepôt de données représentent l’activité d’une entreprise durant une certaine période (plusieurs années) permettant d’analyser les variations d’une donnée dans le temps;
    • Non-volatiles : les données de l’entrepôt de données sont essentiellement utilisées en interrogation (consultation) et ne peuvent pas être modifiées (sauf certain cas de rafraîchissement)
    ↩︎
  3. Disponible à l’url: https://www.re3data.org↩︎

  4. Au 2 décembre 2021↩︎

  5. En appliquant les filtres « Humanities and Social Sciences », « non profit institution » et « FAIR », le catalogue recense un total de 45 infrastructures.↩︎

  6. Disponible à l’url: https://fairsharing.org/databases/↩︎

  7. Au 2 décembre 2021↩︎

  8. Disponible à l’url: https://www.loterre.fr/skosmos/TSO/fr/↩︎

  9. Disponible à l’url: https://edal.ipk-gatersleben.de/↩︎

  10. Disponible à l’url: https://www.ipk-gatersleben.de/↩︎

  11. Disponible à l’url: https://edal-pgp.ipk-gatersleben.de/↩︎

  12. Disponible à l’url: https://schema.org/↩︎

  13. Disponible à l’url: http://edal.ipk-gatersleben.de↩︎

  14. Disponible à l’url: https://didomena.ehess.fr/↩︎

  15. Disponible à l’url: https://dorel.univ-lorraine.fr/↩︎

  16. Licence GNU General Public License (GPL) Version 3↩︎

  17. Le Centre de recherche de Juliers est un des plus grands centre de recherches interdisciplinaires européen. Disponible à l’url: https://www.fz-juelich.de/portal/DE/Home/home_node.html↩︎

  18. Le Helmholtz Zentrum München est un centre de recherches médicales allemand. Disponible à l’url: https://www.helmholtz-munich.de/helmholtz-zentrum-muenchen/index.html↩︎

  19. Cette description s’appuie sur les articles de Borgman et al. (2015; K.Doorn 2020). Disponible à l’url: https://dans.knaw.nl/nl/↩︎

  20. Disponible à l’url: https://easy.dans.knaw.nl/ui/home↩︎

  21. Disponible à l’url: https://dataverse.nl/↩︎

  22. Disponible à l’url: https://www.narcis.nl/↩︎

  23. Voir à l’url: https://www.coretrustseal.org/↩︎

  24. Disponible à l’url: https://researchdata.nl/↩︎

  25. Disponible à l’url: https://eudat.eu/european-data-initiative↩︎

  26. Disponible à l’url: https://ariadne-infrastructure.eu/↩︎

  27. Disponible à l’url: https://eosc-portal.eu/↩︎

  28. Disponible à l’url: l’https://www.ehri-project.eu/↩︎

  29. Un ensemble de données (data set) EASY est l’équivalent d’une “collection” dans la terminologie de la Dublin Core Metadata Initiative. Les ensembles de données sont étiquetés avec un ou plusieurs codes de classification disciplinaire.↩︎

  30. Disponible à l’url: https://www.cultureelerfgoed.nl/↩︎

  31. Disponible à l’url: https://portable-antiquities.nl/pan/#/public↩︎

  32. Disponible à l’url: https://www.fairsfair.eu/↩︎

  33. Disponible à l’url: https://www.dcc.ac.uk/↩︎

  34. Disponible à l’url: https://fairaware.dans.knaw.nl/↩︎

  35. Disponible à l’url: https://www.ukdataservice.ac.uk/↩︎

  36. Disponible à l’url: https://www.data-archive.ac.uk/home↩︎

  37. Disponible à l’url: https://esrc.ukri.org/↩︎

  38. Disponible à l’url: https://reshare.ukdataservice.ac.uk/↩︎

  39. Disponible à l’url: https://www.coretrustseal.org/↩︎

  40. Disponible à sur le lien suivant: [Discover]↩︎

  41. Disponible à l’url: https://hasset.ukdataservice.ac.uk/↩︎

  42. Disponible à l’url: https://elsst.cessda.eu/↩︎

  43. Cette description s’appuie sur CLARIN (2020; Jong et al. 2020; Wittenburg et Jong 2020)↩︎

  44. Un ERIC est une entité juridique internationale, créée par la Commission européenne en 2009↩︎

  45. Les membres de CLARIN sont des gouvernements ou des organisations intergouvernementales.↩︎

  46. En France, le consortium CORLI est un centre de connaissance https://corli.huma-num.fr/fr/↩︎

  47. Disponible à l’url: http://vlo.clarin.eu↩︎

  48. DIsponible à l’url: https://www.cessda.eu/↩︎

  49. Disponible à l’url: https://datacatalogue.cessda.eu/↩︎

  50. Disponible à l’url: https://ddialliance.org/↩︎

  51. Disponible à l’url: https://elsst.cessda.eu/↩︎

  52. Disponible à l’url: https://zenodo.org/↩︎

  53. Disponible à l’url: https://doranum.fr/depot-entrepots/depot-donnees-recherche-zenodo/↩︎

  54. Disponible à l’url: https://blog.zenodo.org/2020/07/09/2020-07-09-altmetric-badges/↩︎

  55. Disponible à l’url: https://www.europeana.eu/fr↩︎

  56. Disponible à l’url: https://pro.europeana.eu/post/europeana-enriches-its-data-with-the-art-and-architecture↩︎

  57. Disponible à l’url: https://iiif.io/about/↩︎

  58. Disponible à l’url: https://pro.europeana.eu/page/apis↩︎

  59. Disponible à l’url: https://pro.europeana.eu/post/publishing-framework↩︎

  60. Les chiffres sont indiqués en milliers↩︎

  61. en milliers↩︎