Introduction
Afin d’offrir des fonctionnalités de recherche puissantes, ISIDORE et NAKALA s’appuient sur pas moins de 14 référentiels (tableau 10.1). Concernant ISIDORE, ces référentiels sont utilisés pour l’enrichissement sémantique des sources, tandis que pour NAKALA, ils permettent de proposer aux déposants des listes de termes pour décrire leurs métadonnées. Cette exploitation se concrétise notamment par l’affichage dans l’interface Web des termes génériques proposés par les différents thésaurus.
Dans ISIDORE, l’intégration de ces référentiels répond à différents besoins :
Permettre de valider les métadonnées pour améliorer leur qualité;
Améliorer l’indexation des documents;
Permettre à un utilisateur de naviguer par sujet ou catégorie;
Améliorer la découvrabilité en permettant de construire des outils de personnalisation ou de recommandation.
Nom du référentiel | Type de référentiel | Lien |
---|---|---|
ArchiRès | Thésaurus architecture | ARCHIRES |
BNE | Liste d’autorités | BNE |
Calenda | Liste d’autorités SHS | Calenda |
Gemet | Thesaurus environnemental | GEMET |
GeoEthno | Thésaurus géographique pour l’ethnologie | GeoEthno |
GeoNames | Liste d’autorités géographique | GEONAMES |
HAL-SHS | Liste d’autorités pour les disciplines SHS | HAL |
LCSH | Thesaurus | LCSH |
Lexvo | Ontologie des langues | LEXVO |
Classification Isidore “types” | Liste d’autorités des types de document | voir section La classification ISIDORE “types” |
Classification Isidore “Périmètres” | Liste d’autorités des sources | voir section La classification ISIDORE “Périmètres” |
Pactols | Thésaurus Archéologie | PACTOLS |
Rameau | Liste d’autorités encyclopédique | RAMEAU |
Data Culture | Liste d’autorité “Contexte historique” | Data Culture |
Description des référentiels utilisés par ISIDORE et NAKALA
Les descriptions des référentiels reprennent celles du site ISIDORE: https://isidore.science/vocabularies.
ArchiRès
Le thésaurus ArchiRès a été élaboré par le réseau francophone des bibliothèques d’écoles nationales supérieures d’architecture et de paysage et de bibliothèques de laboratoire de recherche et de partenaires associés1. Il constitue un outil de travail pour les professionnels (documentalistes, bibliothécaires) et pour les usagers des centres de documentation en architecture. Il permet une indexation globale et homogène des données. Il permet également de retrouver des références dans le portail ArchiRès qui donne accès à un catalogue de recherche documentaire commun aux bibliothèques d’écoles nationales supérieures d’architecture et de paysage du ministère de la Culture, avec à ce jour 400 000 notices bibliographiques, 200 titres de revues spécialisées dépouillées.
Conçu à l’origine comme une simple liste de mots-clés, il a été organisé en thésaurus structuré à partir de 2006. Le thésaurus ArchiRès s’enrichit continuellement au fil des années grâce au travail d’une commission composée de documentalistes du réseau des écoles d’architecture et chargée de sa mise à jour. Sa terminologie reflète l’évolution des différents domaines qui constituent l’enseignement de l’architecture. Une version bilingue en anglais est aussi disponible.
Le thésaurus est géré avec l’application GINCO (Gestion Informatisée de Nomenclatures Collaboratives et Ouverte) développée par le Ministère de la Culture et qui permet la conception et la gestion au fil de l’eau de listes d’autorités et de thésaurus en s’appuyant sur les normes et standards les plus récents : la norme ISO 25964 et le langage SKOS.
BNE
Les données du référentiel BNE proviennent des catalogues bibliographiques et des autorités de la Bibliothèque Nationale de l’Espagne. Elles correspondent à certains champs (auteurs, sujets, oeuvres…) enrichis par des liens vers leurs équivalents dans d’autres sources de données. Pour le champs auteur, des liens, quand ils sont disponibles, sont fournis avec la Library of Congress, la Bibliothèque Nationale d’ Allemagne, la Bibliothèque Nationale de France, le Sudoc, la Bibliothèque Nationale de la Suède, VIAF et ISNI. Les notices d’autorités matières, géographiques et genre/forme sont liées à leurs équivalents de la Library of Congress.
ISIDORE utilise uniquement les autorités sujets de la Bibliothèque Nationales d’Espagne disponibles en SKOS.
Calenda - OpenEdition
“Calenda est un calendrier multilingue en sciences humaines et sociales en ligne et en libre accès. Lancé en 2000, il a vocation à permettre aux membres de l’enseignement supérieur et de la recherche d’être informés des événements scientifiques susceptibles de les intéresser. Il offre, grâce à ses URL pérennes, une archive de la vie scientifique dans le domaine des sciences humaines et sociales. Toutes les annonces publiées sont conservées et restent accessibles à la même adresse. Calenda est une réalisation d’OpenEdition Center”2.
ISIDORE utilise les 174 catégories structurées sur 3 niveaux.
Le thesaurus GEMET
GEMET est un thésaurus multilingue sur le thème de l’environnement, servant d’outil d’indexation, de recherche et de contrôle pour le Centre thématique européen sur catalogue des sources de données (ETC / CDS) et l’Agence européenne pour l’environnement (AEE). GEMET a été conçu comme un thésaurus «général», qui vise à définir un langage commun, constituant un noyau terminologique de l’environnement.
Le thesaurus GeoEthno
GeoEthno est un thésaurus géographique conçu pour l’indexation géographique de documents dans le domaine de l’ethnologie. Actuellement en développement à la bibliothèque Eric-de-Dampierre du Laboratoire d’ethnologie et de sociologie comparative, il sert à l’indexation et à l’interrogation de la base de données de la bibliothèque et plus largement de la base de données du Réseau ethnologie. Sa couverture est irrégulière et non exhaustive. Ce thésaurus a été construit à partir du corpus de mots-clés géographiques accumulés depuis l’informatisation de la bibliothèque en 1985, qui comprenait environ 2000 termes. Le corpus a été nettoyé et enrichi à la suite d’un travail sur des atlas et des listes de références. Simple liste de mots-clés à l’origine, il a été organisé en liste structurée grâce à la création d’une DTD XML (Document Type Definition - Définition de Type de Document). Il comporte environ 15 000 termes. Il est construit autour de la liste des noms de pays et territoires de l’ISO (ISO 3166-1:1997 : Codes pour la représentation des noms de pays et de leurs subdivisions. Partie 1, Codes Pays - Liste en français ) et du découpage des régions macro-géographiques de la Division des Statistiques de l’ONU (Classification “m49”).
GeoNames
La base de données géographique GeoNames est disponible en téléchargement gratuitement sous une licence Creative Commons. Elle contient plus de 10 millions de noms géographiques et compte plus de 8 millions de caractéristiques uniques, 2,8 millions de lieux habités et 5,5 millions d’autres toponymes. Les données sont également accessibles via des webservices. GeoNames intègre les données géographiques telles que les noms de lieux dans différentes langues. Toutes les coordonnées latitude et longitude sont expimées en WGS84 (Système géodésique mondial 1984). Les utilisateurs peuvent éditer manuellement, corriger et ajouter de nouveaux lieux à l’aide d’une interface wiki conviviale.
Le référentiel HAL-SHS
Les disciplines scientifiques accessibles dans HAL-SHS pour les SHS sont issues d’un référentiel européen, European University Association (EUA) construit dans le cadre du projet MORESS – Mapping of Research in European Social Sciences and Humanities. Il s’agit d’une nomenclature simple et lisible par les chercheurs, destinée à améliorer l’accès à l’information sur la recherche en sciences sociales et humaines. Le référentiel des disciplines SHS HAL appartient lui-même au “macro-référentiel” AureHAL des domaines de recherche 3.
LCSH
Le référentiel de la Library of Congress Subject Headings (LCSH) a été activement maintenu depuis 1898 pour cataloguer les documents détenus par la Bibliothèque du Congrès ainsi que ceux détenus par d’autres bibliothèques des États-Unis. De plus LCSH est utilisé internationalement, notamment pour la traduction de descripteurs. Le LCSH inclut toutes les vedettes matières de la Bibliothèque du Congrès, des subdivisions mobiles (topique et forme), des rubriques (genre/forme), des rubriques spécifiques pour lesquelles des notices d’autorité ont été créées. Le contenu inclut quelques vedettes de noms (personne et organisation) et des rubriques géographiques. Celles-ci ont été ajoutées au LCSH, pour fournir un modèle pratique à l’établissement de subdivisions, ou pour fournir une structure de référence pour les autres termes.
Lexvo
Lexvo 4 est une ontologie construite sur les principes du Web de données. L’un des principaux objectifs est de fournir des descriptions des langues humaines. Le terme de langue se veut inclusif car il englobe des variantes linguistiques spécifiques (comme les dialectes) et des groupes plus importants de variantes de langue (par ex. macrolangues et langue familles). Les informations sur les langues et leurs relations sont issues de Wikipédia, de WordNet et de la norme ISO.
PACTOLS
Les PACTOLS (acronyme de Peuples, Anthroponymes, Chronologie, Toponymes, Œuvres, Lieux et Sujets) forment un thesaurus spécialisé en archéologie et en sciences de l’Antiquité. Dans le domaine de l’archéologie, les PACTOLS couvrent la période temporelle de la Préhistoire jusqu’à deuxième Guerre mondiale, et inclut toutes les sciences nécessaires à l’étude et la conservation de ses objets : paléontologie humaine, sciences de la nature, physique et chimie, etc. Concernant l’Antiquité, les PACTOLS couvrent la période temporelle depuis l’invention de écriture jusqu’à l’an Mil et sous tous ses aspects.
Les PACTOLS sont un thesaurus poly-hiérarchique composé de six micro-thesaurus, multilingue (base française traduite en anglais, allemand, espagnol et italien), évolutif et autonome. Ce thésaurus est continuellement enrichi et mis à jour « au fil de l’eau » : la terminologie reflète l’évolution de la recherche et des centres participants au réseau. Il est géré par le réseau FRANTIQ (GDS 3378 de l’InSHS du CNRS). Quand de nouvelles équipes adhèrent à la Fédération FRANTIQ, leurs thématiques sont intégrées dans le thesaurus. Les nouveaux termes sont validés par des chercheurs, experts du domaine. Les PACTOLS sont gérés avec un logiciel de gestion et de recherche documentaire (OpenTheso), conforme à la norme ISO 25964-1:2011 et s’appuie sur des outils libres. Ce logiciel peut être importé dans plusieurs applications (archives de la Maison archéologie et Ethnologie, revue AdlFI « Archéologie de la France Informations », etc.). Le thesaurus est exportable dans un format SKOS et accessible sous sa forme OPAC ; le logiciel et les PACTOLS font l’objet de licence en creative commons. Pour les lecteurs habitués au papier, les listes hiérarchiques des PACTOLS sont téléchargeables depuis le site de FRANTIQ, après inscription sur le site. Le logiciel de gestion et de recherche documentaire (LGRD) est OpenTheso qui suit la norme ISO 25964-1:2011.
RAMEAU
Le référentiel RAMEAU 5 (Répertoire d’autorité-matière encyclopédique et alphabétique unifié) est un langage d’indexation matière qui couvre tous les domaines du savoir et s’applique à tous types de documents sur tous types de supports. Ce langage documentaire est utilisé, en France, par la Bibliothèque Nationale de France, les bibliothèques universitaires, ainsi que de nombreuses bibliothèques de lecture publique ou de recherche. Le noyau des notices d’autorité RAMEAU est formé de noms communs (environ 100.000) et de noms géographiques (environ 50.000). Il s’agit d’un vocabulaire contrôlé et hiérarchisé, qui associe les thèmes par relations sémantiques (termes génériques/spécifiques/associés).
Les concepts de RAMEAU sont représentés avec les langages RDF et SKOS, dans le cadre du projet européen TELplus. Chaque concept, désigné par une URI pérenne, est muni de libellés (préférés ou alternatifs), de diverses notes, mais aussi de liens sémantiques vers d’autres concepts RAMEAU (concepts génériques, concepts associés) et vers des référentiels extérieurs (LCSH, DNB). Ce référentiel est maintenu à jour sur le site de la BNF.6.
Data Culture: Contexte historique
La liste d’autorité “Contexte historique” est gérée par le Ministère de la Culture et de la Communication. Elle est accessible sur la plate-forme GINCO7 dont l’objectif est de donner accès, de manière homogène et centralisée, à l’ensemble des vocabulaires scientifiques et techniques produits par le Ministère chargé de la culture et ses partenaires. Cette liste a été créée en 2014 par le Service interministériel des Archives de France. Elle réunit des descripteurs désignant des événements ou des périodes historiques pour l’indexation des archives locales.
La classification ISIDORE “Périmètres”
La classification ISIDORE “Périmètres” caractérise la nature des données qui sont définies par 4 valeurs: les données évènementielles, les données primaires (= sources de la recherche), les données secondaires (= données bibliographiques) et les publications.
La classification ISIDORE “types”
Cette classification caractérise le type de ressources indexées dans le moteur de recherche ISIDORE. Il y a actuellement 34 labels (Tableau 10.2) permettant de décrire les types de ressources qui sont moissonnées. Cette classification a permis de construire une facette de recherche pour l’utilisateur dans le moteur de recherche, pour une meilleure expérience de recherche documentaire.
Nom de l’objet (skos:prefLabel) | Type (skos:definition) |
---|---|
Actualités | Signalement d’événements et d’actualités |
Article | Articles édités dans des revues, mélanges, ouvrages collectifs |
Articles de données | Articles de données |
Articles et documents programmables | Articles et documents programmables (jupyter notebooks, etc.) |
Autres | Autres documents |
Bibliographie | Bibliographies éditées ou publiées |
Bibliothèque numérique | Catalogue de bibliothèques numériques |
Billet de blog | Billets de blogs et carnets de recherche scientifiques |
Bulletin | Bulletins |
Calendrier | Calendriers d’activités scientifiques |
Cartes et plan | Cartes et plans |
Colloque et conférence | Actes de colloques et conférences |
Cours | Cours et descriptions de cours (syllabus) universitaires |
Document audiovisuel | Collection de documents audio et vidéo |
Données d’enquête | Données d’enquêtes |
Edition de sources | Édition de sources |
Exposition | Collections d’œuvres d’art |
Fond d’archives | Archives scientifiques |
Jeux de données | Jeu de données |
Livre et chapitres d’ouvrage | Livres ou chapitres d’ouvrages édités |
Logiciels et codes | Descriptions de logiciels et de codes |
Manuscrit | Collections de manuscrit |
Matériel pédagogique | Matériels pédagogiques |
Mémoire, thèse, HDR | Mémoires, Thèses et HDR soutenues |
Page web | Pages ou élément d’un site Web |
Partitions | Partitions et documents de musique |
Périodiques | Publication en série (exposée en tant que numéro de périodique) |
Photos et images | Corpus d’images |
Pré-publication | Preprint |
Présentation | Présentations dans une conférence ou un congrès |
Rapports | Rapports |
Recensions | Review |
Séminaires | Séminaires de recherche et journées d’études |
Textes imprimés | Collection de textes (textes, transcriptions annotées) non édités mais rassemblés en corpus d’auteurs, thématiques, etc. |
Utilisation des référentiels pour la recherche dans l’interface Web d’ISIDORE
Les référentiels ISIDORE ont différentes fonctions:
La création de facettes pour assister l’utilisateur dans sa recherche documentaire (Figure 10.2);
L’auto-complétion de concepts ou autorités pour assister l’utilisateur dans sa recherche documentaire (Figure 10.1)
L’amélioration de l’indexation des ressources et permettre une meilleure découvrabilité des données par l’augmentation de la pertinence des résultats de recherche;
L’aide à la recherche pour l’utilisateur grâce à l’ajout de concepts dans les fiches documents, grâce à l’annotation sémantique;
Le liage de sujets pertinents pour la suggestion et la recommandation d’autres ressources et ainsi améliorer l’expérience de recherche documentaire, grâce à l’annotation sémantique.
Les facettes de recherche
Les facettes de recherche (Figure 10.2) sont construites à partir des 4 référentiels suivants:
La nature des documents du référentiels “Périmètre Isidore”
La typologie des documents du référentiel “types Isidore”
Les disciplines SHS du référentiel HAL/MORESS
La langue du document
Quelques métriques sur les facettes
Dans cette section, nous proposons quelques métriques permettant d’illustrer le contenu de la base de données de ISIDORE en termes de types de ressources et de représentation des disciplines des Sciences Humaines et Sociales.
Diversité typologique
Nous observons que le moteur de recherche ISIDORE moissonne
principalement des Articles scientifiques, avec plus de 30% d’articles
dans l’ensemble de la base de données (Figure 10.3).
Diversité disciplinaire
Nous observons que les disciplines Histoire, Littérature et Droit sont les disciplines majoritaires dans le moteur de recherche ISIDORE (Figure 10.4).
L’enrichissement sémantique
L’enrichissement sémantique, ou annotation, est réalisée à partir des autres référentiels que ceux utilisés pour la création de facette (voir Tableau 11.2). Pour illustrer la façon dont cet enrichissement sémantique est utilisé dans ISIDORE, nous allons nous baser sur un exemple sur la thématique de l’archéologie sous-marine afin de recréer un parcours de recherche d’information.
Considérons une recherche effectuée via l’interface de “recherche avancée” proposée par ISIDORE. L’expression “underwater archeology” est entrée dans la barre de recherche en sélectionnant une recherche dans toutes les métadonnées (titre, sujet ou mots-clé et résumé). Nous choisissons d’utiliser les facettes de recherche en ne limitant la recherche qu’aux articles et à la discipline ‘Archéologie et Préhistoire’ (Figure 10.5).
Le résultat de recherche affiche 43 articles. Nous sélectionnons le second résultat “Raising Statues and Blocks from the Sea at Alexandria” (Figure 10.6). La fiche du document permet d’accéder à un certain nombre d’informations:
Rappel des informations sélectionnées lors de la recherche (catégorie SHS et type de document)
Périmètre du document
Langue du document (correspond à la langue du texte intégral)
Mots-clés de l’auteur
Concepts ajoutés lors de l’enrichissement sémantique dans ‘Sujets proches’. L’enrichissement a aussi été effectué avec des concepts en anglais, plus nombreux ici.
L’enrichissement sémantique permet d’affiner la recherche en navigant dans le champ lexical de la recherche initiale. En cliquant sur le concept “archéologie sub-aquatique”, il est possible d’accéder à la fiche du concept (Figure 10.7), et à de nombreuses informations:
Le concept dans 3 langues: français, anglais et espagnol
La définition du concept, uniquement en français
Le nom du référentiel d’où provient le concept, ici ‘Pactols’, référentiels spécialisé en archéologie
L’URI du concept, permettant d’accéder directement au référentiel en ligne et d’obtenir plus d’informations sur le concept (synonymes, hiérarchie du concept dans le référentiel, d’autres documents)
Le nombre de documents qui abordent le concept, classés par disciplines SHS et types de document
Le nom des auteurs qui ont publié sur ce concept et le nombre de publications associées
Sur la partie droite de la page, une liste de documents en rapport avec le concept
Sur la fiche du document, la facette “English” permet d’accéder à de nombreux concepts, issus de l’enrichissement, en anglais. Dans cet exemple, nous avons accès à un nombre plus importants de concepts en anglais qu’en français (Figure 10.6). En cliquant sur le concept “Statuary”, nous accédons à la fiche du concept “Statues” (Figure 10.8). Le référentiel n’est pas le même, puisqu’ici il s’agit du référentiel LCSH. Nous n’avons pas accès à une définition du concept, mais l’URI est présente et permet d’explorer le référentiel LCSH en ligne. Enfin, 596 documents traitant de ce concept sont listés.
Sur la fiche du document, le moteur de recherche ISIDORE émet des suggestions de lecture en rapport avec le document (Figure 10.9):
D’autres publications du même auteur
Des publications traitant des mêmes sujets
Des publications traitant de la même discipline SHS
Utilisation des référentiels pour le dépôt de données dans l’interface Web de NAKALA
Afin de déposer une ressource dans l’entrepôt de données NAKALA, il est nécessaire de décrire le type de ressource déposée. Pour aiguiller les déposants et faciliter ensuite la recherche de données dans le moteur de recherche NAKALA, une liste de types est proposée (Figure 10.10). Cette liste est issue du référentiel d’informations techniques des types de ressources utilisée également dans ISIDORE. L’utilisation des mêmes types facilite le moissonnage et l’indexation des données par ISIDORE et augmente ainsi leur découvrabilité.
Au cours du dépôt de la donnée, l’interface demande également de mentionner le nom des auteurs de la ressource à déposer (Figure 10.11). Il est possible d’ajouter un nouvel auteur grâce à un formulaire (Nom, Prénom, Orcid) ou d’utiliser l’auto-complétion proposée grâce à la base de données des auteurs qui s’est construite au fur et à mesure que les déposants ont ajouté de nouveaux auteurs. Cette base de données auteurs ne communiquent pas avec les auteurs disponibles dans ISIDORE, mais une fonctionnalité permettant de créer une base de données externes d’auteurs communes aux deux plateformes NAKALA et ISIDORE est proposée dans le C.C.T.P, ce qui permettrait d’accroître la connexion entre celles-ci.
Lors du dépôt d’un fichier dans l’interface de dépôt NAKALA, il est également possible d’enrichir la description du fichier grâce à l’ajout de métadonnées complémentaires optionnelles. L’interface propose dans la section “Informations complémentaires” l’ajout de mots-clés via des propositions en auto-complétion de termes (Figure 10.12). Ces derniers proviennent d’une liste de concepts issus des mêmes référentiels scientifiques que ceux exploités par ISIDORE, mais ne sont pas rattachés à ces référentiels directement. Ils ont été extraits et intégrés à l’interface comme une liste de termes non structurés. Aussi aucune connexion n’est établie via ces derniers à leur utilisation dans ISIDORE. Des fonctionnalités permettant d’établir un lien entre NAKALA et ISIDORE via l’utilisation de ces référentiels scientifiques sont proposées dans le C.C.T.P.
Conclusion
Le parcours de recherche ISIDORE a démontré comment l’utilisation des référentiels dans l’enrichissement sémantique ajoute de la valeur à la découverte d’information. Parmi les principaux avantages, nous pouvons citer les bénéfices des référentiels multilingues, pour les non-francophones, mais aussi pour l’augmentation du nombre de concepts et de la découvrabilité d’autres ressources. D’autres part, l’accès aux fiches descriptives des concepts permet d’accéder à des définitions et aux URIs, ce qui représente une plus-value non négligeable, d’autant plus lorsqu’il s’agit de référentiels spécialisés. Cependant, ici, cette fonctionnalité serait encore plus puissante si la définition du concept était accessible dans les 3 langues disponibles, ce qui n’est pas le cas actuellement. Par ailleurs, le référentiel LCSH ne fournit pas de définitions, un alignement avec d’autres référentiels possédant des définitions des mêmes concepts pourrait être intéressant.
L’usage des termes et concepts lors du dépôt de données NAKALA est également très intéressant car il permet d’augmenter la qualité des données déposées pour une indexation plus fine des ressources dans la base de données. Néanmoins, bien que l’ensemble des termes et concepts utilisés dans NAKALA proviennent des mêmes référentiels techniques ou scientifiques que ceux exploités dans ISIDORE, il ne sont pas reliés à ces derniers et sont interprétés comme des listes de mots à plat, sans utiliser la structuration SKOS. Les concepts scientifiques n’indiquent donc pas à quel référentiel ils appartiennent, ce qui peut conduire à des difficultés de description des données par les déposants ne se retrouvant pas dans les concepts proposés, qui ne refléteraient pas précisément leur discipline. Certaines propositions de nouvelles fonctionnalités dans le C.C.T.P pourraient considérablement améliorer ces fonctionnalités de base et renforcer ainsi les liens entre les 2 plateformes ISIDORE et NAKALA, améliorant au passage l’indexation, le moissonnage, la découvrabilité des données pour aller vers plus de Science Ouverte.
Références
Voir à l’url: https://www.archires.archi.fr/fr/presentation↩︎
Extrait de: https://calenda.org/about↩︎
AureHAL centralise tous les référentiels HAL: https://aurehal.archives-ouvertes.fr/domain/index↩︎
Extrait et traduit de: http://www.lexvo.org/↩︎
Disponible à l’url: https://rameau.bnf.fr/↩︎
Voir l’url: https://data.bnf.fr/semanticweb↩︎
Disponible à l’url: http://data.culture.fr/thesaurus/↩︎