Introduction
Le début des années 2000 a vu la production d’un très grand nombre d’études portant sur l’analyse des pratiques d’accès des chercheurs aux sources d’information et aux documents bibliographiques (publications, données de série, etc.). Dans leur étude réalisée en 2008 (Ihadjadene et Chaudiron 2008), les auteurs identifiaient plus d’une centaine de travaux de ce type. Dans leur conclusion, ils insistaient sur un point qui semble toujours d’actualité : « Un moteur de recherche n’est plus simplement le « lieu » où s’apparient différentes structures cognitives dans le cadre d’interactions, mais il est considéré comme un système plus global dans lequel entrent en jeu de multiples variables : l’espace cognitif des acteurs, les caractéristiques contextuelles psychologiques, sociales et organisationnelles, ainsi que le changement des besoins d’information. Il est important d’appréhender l’usager en situation de recherche d’information de manière beaucoup plus globale que dans les modèles cognitifs et, a fortiori, dans l’approche système qui sous-tend encore souvent les études d’usage actuelles des moteurs de recherche.»
Au cours des dix dernières années, après l’arrivée de Google Scholar, le nombre de plateformes de recherche de documents, de données, de publications, et donc d’information a fortement augmenté (Gusenbauer 2019). L’étude menée par Know-Center (Breitfuss, Barreiros, et al. 2020), recense plus de 47 plateformes, avec l’arrivée de plateformes privées (ResearchGate, Academia, My Science Work, Polaris…) ou non gouvernementales (Semantic Scholar, Dimensions…). Cette étude corrobore les résultats publiés en 2016 par Lopez-Cozar, Orduna-Malea, et Martin (2018), à savoir que Google Scholar est le moteur de recherche utilisé par 89% des utilisateurs. Dans le même temps, les études d’usage ont pratiquement disparu des travaux de recherche.
Dès la fin de la décennie 2000, la multiplication des moteurs de recherche académiques s’est doublée d’une croissance très importante de la mise à disposition d’outils de découverte des publications scientifiques au sein des bibliothèques universitaires (Simonnot 2012). Les discover tools se sont d’ailleurs très souvent “hybridés” avec les moteurs de recherche académiques et même les moteurs de recherche du Web (Bermès, Isaac, et Poupeau 2013; Gandon, Faron-Zucker, et Corby 2012). Le mouvement est international et par ailleurs, à l’échelle européenne, le développement et l’évolution de portails tel que NARCIS au Pays-Bas, Cultura Italia en Italie, ou plus récement REDIB en Espagne et en Amérique Latine, ont permis aux chercheurs et chercheuses d’avoir accès de façon complémentaire et coordonnée à la littérature scientifique et aux sources de données pour leurs recherche dans leurs disciplines, que ce soit les publications en libre accès ou les documents sous droits, rendus accessibles via des API dédiées ou plus largement via les proxy intégrés aux portails des bibliothèques universitaires pour gérer les abonnements payants.. En Europe, le développement de Driver (2006-2009) puis, depuis 2008, de la plateforme OpenAIRE1, qui regroupe « 50 partenaires, de tous les pays de l’UE et au-delà », a offert, au cours de la décennie 2010-2019, un ensemble de « briques » pouvant être utilisées par des portails ou dispositifs de recherche de données : thématiques et même aujourd’hui disciplinaires (Manghi, Bardi, et Schirrwagen 2018).
Dans le même temps, le développement du libre accès aux données de la recherche et aux publications (mouvement de l’Open Access puis de la Science Ouverte) et dans une moindre mesure le Web sémantique (Bermès, Isaac, et Poupeau 2013), ont libéré des masses très importantes de métadonnées et de documents qui ont été intégrés à la plupart des outils de découverte sous la forme de base de données satellites. Ces dernières permettent de développer des portails associant moteurs de recherche (fondés sur l’indexation des métadonnées et du texte intégral) et outils de rebond ou d’extension par recherche fédérée vers différentes bases de données accessibles sous la forme de multiples API grâce à la proxyfication des dispositifs (Pouyllau et al. 2012).
C’est dans ce contexte qu’ISIDORE a été imaginé et mis en oeuvre (Maignien 2011; Pouyllau 2011). Au delà de la dimension “moteur de recherche”, ISIDORE a été orienté, dès le début, vers l’enrichissement sémantique et la publication, dans le Linked Open Data (Poupeau 2016), de métadonnées à l’aide de référentiels scientifiques élaborés par les communautés de recherche et des bibliothèques à l’échelle nationale jusqu’en 2015, puis internationales avec le passage aux enrichissements multilingues à partir de 2015. L’ajout de fonctionnalités de réseau social académique dans ISIDORE est venu compléter un dispositif sociotechnique largement centré sur la mise en relation des savoirs avec les travaux des productions de classification et d’organisation proposées par les communautés de recherche.
Si NAKALA a été imaginé dans un premier temps comme un réservoir de documents et de métadonnées dans le Linked Open Data, sans interface Web de consultation des métadonnées et des données, ce n’est que lors de sa refonte en 2020, que son positionnement en complémentarité de contenus avec ISIDORE a été proposé. Les deux services s’inscrivant ainsi dans une interopérabilité de services (Maignien 2011) au sein de l’écosystème d’Huma-Num. À l’image des dispositifs intégrés tels que OpenAIRE, Europeana, etc., ISIDORE et NAKALA s’inscrivent dans cette tendance s’appuyant sur des « briques communicantes » pour faciliter leurs usages par les publics cibles. Ces briques constituent le coeur du dispositif cohérent des services mis en place par Huma-Num pour faciliter l’accès, le signalement, la conservation et l’archivage à long terme des données de la recherche en SHS (Figure 5.1).
NAKALA
Les informations de cette section proviennent en partie du site Web de la documentation de la TGIR Huma-Num, accessible à cette adresse: https://documentation.huma-num.fr/nakala/.
NAKALA (Figure 5.2)2 est un service d’Huma-Num permettant à des chercheurs, enseignants-chercheurs ou équipes de recherche, de partager, publier et valoriser tous types de données numériques documentées (fichiers textes, sons, images, vidéos, objets 3D, etc.) dans un entrepôt sécurisé afin de les publier en accord avec les principes FAIR et plus largement ceux de la science ouverte (accès ouvert, immédiat et réutilisable des données publiques).
L’entrepôt Nakala assure à la fois l’accessibilité aux données et aux
métadonnées ainsi que leur « citabilité » dans le temps à l’aide
d’identifiants stables fournis par Huma-Num et basés sur des
identifiants de type Handle (jusqu’en 2021) et DOI 3
(depuis le 19 décembre 2020). Il s’inscrit dans la politique du Web des
données qui permet notamment de rendre interopérables les métadonnées,
c’est-à-dire la possibilité de les connecter à d’autres entrepôts
existants suivant ainsi la logique des données ouvertes et liées
(Linked Open Data). Par ailleurs, il propose également un
dispositif d’exposition des métadonnées qui permet leur référencement
par des moteurs de recherche spécialisés comme ISIDORE. La description
riche, précise et harmonisée des données avec NAKALA permet d’assurer
leur pérennité, de garantir leur traçabilité sur le long terme, et
d’encadrer leur réutilisation. L’utilisation de NAKALA a pour finalité
de cibler des projets visant à publier en ligne un ensemble de données
associé à des métadonnées descriptives ayant une cohérence scientifique,
comme des corpus, des collections, des reportages, etc. L’objectif de
NAKALA est ainsi de viser la publication de jeux de données, ou
d’ensemble de données ayant une valeur scientifique ou culturelle
importante4.
Architecture générale et fonctionnalités
NAKALA propose deux fonctionnalités principales (Figure 5.3) 5:
Le dépôt et la gestion de données;
La consultation de données.
Le dépôt et la gestion des données
Le modèle de données
Le modèle de données de Nakala s’appuie sur le modèle du Dublin Core (DC). Cinq métadonnées sont obligatoires pour décrire une donnée:
Titre (nakala:title, multivaluée)
Type (nakala:type, unique)
Auteur (nakala:creator, multivaluée)
Date (nakala:created, unique)
Licence (nakala:license, unique)
Ces métadonnées doivent être exprimées au moment du dépôt dans le vocabulaire NAKALA, mais peuvent être converties en Dublin Core au moment du requêtage des données via l’API ou via le protocole OAI-PMH. Il est possible d’ajouter plusieurs titres (nakala:title) en précisant ou non la langue de chacun. NAKALA propose une liste de plus de 7000 langues vivantes ou éteintes selon les normes ISO-639-2 et ISO-639-3. Les types des données NAKALA sont identiques à ceux utilisés dans le moteur de recherche ISIDORE6.
Pour les auteurs, NAKALA propose en auto-complétion des noms d’auteurs à l’aide d’une base des auteurs, en fonction des dépôts effectués par les utilisateurs. Si un auteur n’est pas disponible dans l’auto-complétion proposée depuis l’interface web, il est possible d’en ajouter un nouveau. Chaque auteur peut être décrit par son nom, son prénom et éventuellement un identifiant ORCID. Il est possible de renseigner d’autres formes auteurs en ajoutant des métadonnées issues du vocabulaire Dublin Core.
Ce modèle de données peut être enrichi par l’utilisateur par des vocabulaires spécialisés propres à une ou plusieurs disciplines. Pour cela, NAKALA propose aussi en auto-complétion tous les labels (prefLabel et altLabel) des concepts des référentiels qu’utilisent ISIDORE pour enrichir ses données. La métadonnée optionelle “Mots-clés”, associée au vocabulaire dcterms:subject, est liée aux différents thésaurus utilisés dans ISIDORE (voir chapitre Les référentiels utilisés par ISIDORE et NAKALA).
NAKALA fournit automatiquement un identifiant unique et stable à chaque donnée déposée, un DOI. Dès qu’une donnée est publiée, les droits de lecture sont actualisés dans le moteur de recherche, le serveur OAI-PMH et publiés dans Datacite7.
Le dépôt des données
L’ensemble des données déposées dans NAKALA peuvent être regroupées dans des collections. Une collection regroupe un ensemble de données cohérentes. Toute collection publique constitue un set dans l’exposition OAI-PMH de NAKALA. Ce set OAI est indexé par le moteur ISIDORE et est présenté comme une collection dans cette plateforme. Une donnée peut appartenir à plusieurs collections. Il n’y a pas de hiérarchie entre les collections. Une collection publique ne peut contenir que des données publiées. Les droits de gestion d’une collection sont indépendants des droits de gestion de données qu’elle contient.
Lors de la création d’une collection, il est possible de choisir :
Si celle-ci est privée ou publique (métadonnée obligatoire) ;
Son ou ses titres en précisant ou non leur langue ;
Des informations complémentaires et optionnelles sur la description de cette collection, ses mots-clés, etc. ;
Les droits afférents à cette collection et le rôle des contributeurs8 associés à celle-ci.
L’exploitation des données
Il existe plusieurs solutions pour exploiter les jeux de données qui sont déposés et documentés dans NAKALA :
Utiliser le module de publication Web interne à NAKALA appelé « NAKALA Press » proposé par Huma-Num;
Utiliser des outils existants comme un moteur de blogs, un CMS (Content Management System) permettant d’inclure une représentation des données proposé par NAKALA via l’adresse URL (DOI) de la donnée.
L’interface de gestion
Après avoir créé un compte NAKALA puis déposé des données, l’utilisateur accède à une interface de gestion lui permettant de:
consulter un tableau de bord personnel afin de suivre les métriques de ses données de façon chiffrée: nombre de données déposées/publiées, consultations de ces données, téléchargements, stockage privé, fréquence des dépôts;
afficher les données de l’utilisateur ou des données que d’autres utilisateurs ont partagé avec celui-ci;
gérer ses différentes collections ainsi que celles partagées avec d’autres utilisateurs;
gérer des groupes d’utilisateurs afin d’administrer les droits d’accès et de contribution aux dépôts;
gérer ses différents sites NAKALA Press.
La consultation des données
Outre le dépôt et la gestion de données, il est possible d’accéder aux données déposées dans NAKALA de différentes façons:
Via la barre de recherche disponible sur la page d’accueil (Figure 5.2);
Via les API mises à disposition permettant de rechercher différentes informations sur différentes granularités9. Certaines API ne sont ne sont pas ouvertes et sont accessibles que grâce à une clé API qu’il est possible de générer avec un compte utilisateur;
Via le SPARQL Endpoint10.
ISIDORE
Les informations de cette section proviennent en partie du site Web de la documentation de la TGIR Huma-Num, accessible à cette adresse: https://documentation.huma-num.fr/isidore/.
ISIDORE11 (Figure 5.4) est un moteur et assistant de recherche permettant de trouver des publications, des données numériques et profils de chercheurs et chercheuses en sciences humaines et sociales venant du monde entier (Figure 5.4). Il permet de rechercher dans plusieurs millions de documents (articles, thèses et mémoires, rapports, jeux de données, pages Web, notices de bases de données, description de fonds d’archives, etc.), et des signalements d’évènements (séminaires, colloques, etc.).
Il propose aussi des fonctionnalités de réseau social scientifique
(profil personnel, suivi d’auteurs , partage de collections
bibliographiques, etc). Il offre enfin de nombreuses fonctionnalités
pour organiser sa veille scientifique (collections bibliographiques,
alerte sur des requêtes, etc.).
Lancé le 8 décembre 2010, ISIDORE est le fruit de la collaboration du
très grand équipement « Adonis » (Maignien 2011) du CNRS (2007-2013), du
Centre pour la communication scientifique directe et des sociétés
Antidot, Mondéca et Sword (Pouyllau et al. 2012). Il est
actuellement développé et exploité par la TGIR Huma-Num.12
Architecture générale et fonctionnalités
Plus qu’un simple moteur de recherche, ISIDORE constitue une plateforme de traitement et d’enrichissement des données avec pour objectif:
D’offrir aux chercheurs un point d’accès unifié aux différentes ressources structurées produites dans le domaine des SHS en France ;
D’exposer selon les principes du Linked Data les données bibliographiques structurées de la recherche en Sciences Humaines et Sociales en France ;
Selon la logique d’une boucle de rétroaction, d’offrir les moyens aux producteurs de récupérer l’enrichissement automatique effectué par le moteur sur les données indexées.
Le déploiement de ces différents éléments au sein de cette plateforme a nécessité la mise en place d’une chaîne de traitement constituée de 4 étapes:
La collecte des données;
Le traitement des données;
L’indexation;
L’accès aux données.
La collecte des données
La collecte de données est réalisée au moyen des protocoles de moissonnage OAI-PMH 13 et Sitemaps. Ils ciblent des métadonnées et données scientifiques structurées selon des standards internationaux (Dublin Core et DCTerms14) et disponibles en accès libre sur le Web.
Le traitement des données
À l’issue de la collecte des données et préalablement à l’indexation, les données subissent un certain nombre de traitements. Généralement peu valorisée, cette étape est pourtant essentielle pour garantir un résultat de qualité et une recherche efficiente au sein du moteur de recherche. Les traitements effectués enchaînent plusieurs étapes:
Validation des données: il s’agit d’une phase de vérification de la conformité des données en XML (bien formées et valides par rapport à leurs schémas), et ainsi que des contraintes spécifiques à ISIDORE comme la présence obligatoire de certains champs (titre, résumé, etc.);
Normalisation des métadonnées: celle-ci a pour but de standardiser et d’harmoniser les métadonnées selon des normes préalablement choisies. Cette étape joue un rôle essentiel car la découvrabilité des données dépend de la qualité des métadonnées. La chaîne de traitement ISIDORE applique les normalisations suivantes:
La détection des auteurs : ISIDORE détecte les auteurs des documents et enrichit la forme auteur (prénom et nom) à l’aide d’identifiants auteurs internationaux (ORCID, VIAF, ISNI) et nationaux (IDHAL, IDRef);
La normalisation des dates dans un format unique (ISO8601);
La normalisation des mentions de langue.
Enrichissement sémantique: Il s’agit d’une phase d’enrichissement des métadonnées permettant d’accroître la découvrabilité des données et leur qualité. L’enrichissement sémantique consiste à aligner certaines métadonnées sur des référentiels (voir Chapitre Les référentiels utilisés par ISIDORE et NAKALA ). Plusieurs enrichissements sont effectués :
L’annotation sémantique: les mots présents dans les métadonnées des documents sont comparés aux entrées des référentiels par le biais d’un algorithme fondé sur une analyse morphologique des termes. Si une équivalence s’effectue entre un terme issu du document et une entrée de l’un des référentiels, alors la ressource sera reliée à ladite entrée du référentiel. Les référentiels sont multilingues et alignés entre eux. Ainsi, l’annotation sémantique est multilingue.
La catégorisation disciplinaire: ISIDORE utilise un classifieur 15 qui, après avoir été entraîné sur un corpus de référence, catégorise tous les documents présents dans ISIDORE parmi les disciplines SHS du référentiel MORESS. Le classifieur a été entrainé à partir des catégorisations manuelles effectuées par les chercheurs lors du dépôt de leurs publications dans HAL16.
Indexation: cette étape est réalisée par d’un moteur d’indexation (AIF) fourni par l’architecture logicielle propriétaire de la société Antidot17. Elle assure l’indexation des données non structurées (comme le texte intégral d’un article scientifique par exemple) et des données structurées (métadonnées documentaires). Les sources de données indexées sont exposées par le moteur de recherche.
L’accès aux données
Les données sont accessibles via différents points d’entrée:
Le moteur de recherche disponible en ligne sur la page d’accueil de la plateforme ISIDORE (Figure 5.4)
Les API18 ISIDORE disponibles à l’url: https://api.isidore.science
Le SPARQL Endpoint permettant l’accès aux ressources RDF via des requêtes SPARQL, disponible à cette adresse : https://isidore.science/sparql.
Le modèle de données
L’objectif du modèle de données est de décrire rigoureusement les métadonnées des publications. Ce modèle est spécifié sous la forme d’une ontologie. Une ontologie est « une spécification explicite d’une conceptualisation formalisée par un ensemble de concepts pertinents à un domaine d’intérêt particulier, représentant des connaissances riches et complexes sur les choses, les groupes de choses et les relations entre les choses, ainsi qu’un ensemble de contraintes sur l’utilisation de ses termes » (Grubert 1993). Cette ontologie (Figure 5.5) est spécifiée dans le formalisme des langages du web sémantique, plus précisément dans la pile des langages formels, RDF, RDFS et OWL 19.
La gestion du compte utilisateur
Le site Web isidore.science propose un espace personnel pour les chercheurs et chercheuses permettant de:
Collecter, de classer, d’organiser les documents retournés à la suite d’une requête;
« Revendiquer » par taggage ses productions (données et publications, dès lors qu’elles sont présentes dans ISIDORE) afin de les regrouper et de les éditorialiser dans une page de profils personnels ;
Suivre les productions des pairs;
Enregistrer et publier ses requêtes et leurs résultats à des fins de veille ;
Constituer des bibliographies exportables vers Zotero.
Les spécificités du couple ISIDORE-NAKALA
Dans cette section, afin de les discuter au regard de l’écosystème concurrent existant, décrit dans le chapitre Caractéristiques de quelques infrastructures de dépôt de données de la recherche, nous allons explorer les différents éléments (informatique, scientifique et documentaire) qui créént une articulation entre les plateformes ISIDORE et NAKALA et forment un « couple » .
Le processus d’authentification
ISIDORE et NAKALA exploitent le même dispositif d’authentification appelé HumanID. HumanID est un « hub » d’authentification qui offre la possibilité, à travers une authentification unique, d’avoir accès en un clic à l’offre de services et d’applications de stockage, traitement, diffusion ou encore d’exposition des données scientifiques mis à disposition par la TGIR Huma-Num20.
HumanID est compatible avec l’ensemble de l’écosystème de l’enseignement supérieur et de la recherche internationale (via EduGAIN ou ORCID en particulier) mais aussi aux outils les plus courants pour se connecter facilement à des services numériques.
Au delà de l’authentification, HumanID, qui est développé avec le logiciel open source LemonLDAP, permet aux utilisateurs d’Huma-Num de faire des demandes d’accès aux services de l’écosystème Huma-Num, et de visualiser les services connectés au Web dont ils sont ou peuvent être utilisateurs.
Dans le cadre du projet HNSO, il serait intéressant de mieux exploiter cette authentification partagée qui permettrait par exemple à une personne connectée et disposant de contenus « revendiqués » dans ISIDORE de faire des propositions automatiques et profilées par disciplines et/ou par thématiques pour l’indexation de données déposées dans NAKALA. Plus largement il s’agirait d’utiliser les informations des chercheurs issus d’ISIDORE, qui moissonne l’ensemble des plateformes de publications en SHS pour nourrir les métadonnées et aider à l’indexation de qualité dans NAKALA. Inversement, il serait possible d’utiliser les données déposées par un chercheur dans NAKALA pour suggérer dans ISIDORE des lectures en lien (disciplines, mots-clés, mots du titre (Pouyllau 2020)).
Les référentiels en commun
La description et l’administration des référentiels communs à ISIDORE et NAKALA sont décrites dans les chapitres Référentiels, Concepts, Définitions et Administration, Les référentiels utilisés par ISIDORE et NAKALA et Administration des référentiels utilisés dans ISIDORE.
La classification des types d’objets
La classification des types d’objets est détaillée dans le chapitre Les référentiels utilisés par ISIDORE et NAKALA.
Les auteurs et mots-clés
ISIDORE et NAKALA exploitent les mêmes référentiels et les mêmes auteurs. Ceci permet de proposer à un déposant des labels de mots-clés (Figure 5.6) et des formes auteurs (Figure 5.7) par complétion automatique lorsque le déposant saisit ces mots-clés dans l’interface de saisie des métadonnées dans NAKALA. Ce dispositif assure une cohérence conceptuelle et une meilleure précision dans les processus de recherche d’information dans ISIDORE. À terme, il est prévu d’utiliser les URIs des labels afin d’assurer le suivi des modifications des concepts dans les référentiels et la prise en compte du multilinguisme.
Le moissonnage des collections de NAKALA
La création d’une collection dans NAKALA par un déposant entraîne la création automatique d’un set dans l’exposition selon la norme OAI-PMH. À terme, avec l’accord du déposant et à l’aide d’un menu accessible depuis l’interface Web de NAKALA, cette collection sera signalée à ISIDORE et automatiquement moissonnée, avec pour conséquence d’améliorer la visibilité des données.
La philosophie des interfaces homme-machine (IHM) des deux plateformes
Les deux services ont été développés selon les mêmes principes avec:
L’implication des utilisateurs et utilisatrices cibles dans des panels de définition des fonctionnalités avec catégorisation selon les usages et métiers;
Un travail sur la complémentarité des deux services dans le double contexte de l’écosystème de la TGIR Huma-Num et de la Science Ouverte;
Un travail sur la simplification des interfaces et leur compréhension par des publics non-spécialistes;
Des designs UX et UI réalisés en synergie avec la même équipe et le même prestataire.
Références
Voir à l’url: https://www.openaire.eu/openaire-history↩︎
Disponible à l’url: https://www.nakala.fr↩︎
Disponible à l’url: https://www.doi.org/↩︎
Par exemple, un fichier vidéo déposé dans NAKALA peut être inséré dans des pages Web, comme dans le cas d’un carnet de recherche Hypothèses (disponible à l’url: https://fr.hypotheses.org/) ou dans un web-documentaire.↩︎
Voir documentation sur NAKALA disponible en ligne: https://documentation.huma-num.fr/nakala/↩︎
La liste des types est disponible à l’URL : https://api.nakala.fr/vocabularies/datatypes↩︎
Disponible à l’url: https://datacite.org/↩︎
Les rôles d’un contributeur sur une donnée sont les suivants:
Déposant ;
Administrateur ;
Éditeur ;
Anonyme.
Ces rôles permettent de spécifier des droits sur les actions possible voir: https://documentation.huma-num.fr/nakala/#modele-de-donnees-de-nakala-et-format-des-metadonnees)↩︎
Disponible à l’url: https://api.nakala.fr/doc↩︎
Disponible à l’url: https://www.nakala.fr/sparql↩︎
Disponible à l’url: https://isidore.science/↩︎
Sur l’historique de l’outil, nous renvoyons le lecteur à la documentation sur ISIDORE disponible sur: https://documentation.huma-num.fr/isidore↩︎
Disponible à l’url: https://www.openarchives.org/pmh/↩︎
Disponible à l’url: https://www.dublincore.org/specifications/dublin-core/dcmi-terms/↩︎
La classification automatique ou catégorisation de document relève du Traitement Automatique des Langues (TAL) et fait intervenir des méthodologies de Machine Learning.↩︎
Disponible à l’url: https://halshs.archives-ouvertes.fr/↩︎
Disponible à l’url: https://www.antidot.net/↩︎
La réponse est un flux au format XML (format par défaut) ou JSON↩︎
Disponible à l’url: https://www.w3.org/OWL/↩︎