Les pratiques de recherche et de dépôt de données

Mélanie Bunel

Jean-Luc Minel

Stéphane Pouyllau

Nicolas Sauret

2022/03/15

Introduction

Ce chapitre propose une revue partielle de la littérature sur les pratiques de recherche et de diffusion des données au travers d’entrepôts de données. L’objectif est de rassembler des éléments permettant de comprendre la relation des chercheurs et des chercheuses avec les infrastructures dédiées à leur données. Sans prétendre à l’exhaustivité, ce chapitre cherche à dégager, à partir de plusieurs études de cas, les principales recommandations proposées par leurs auteurs. Le chapitre se conclut par une section centrée sur l’examen des relations entre les déposants de données, les consultants des données et les gestionnaires d’infrastructures de dépôt de données de la recherche. Celle-ci met en exergue l’importance de définir la politique de médiation à mettre en oeuvre par les gestionnaires des infrastructures.

Les pratiques de recherche des données de la recherche

Dans l’étude de Gregory et al. (2019), qui vise à identifier les points communs dans la façon dont les utilisateurs issus de cinq communautés de recherche (Astronomie, Sciences de la Terre et de l’environnement, biomédecine, fouilles archéologiques, sciences sociales) recherchent et évaluent les données de recherche, les auteurs ont collecté puis analysé la littérature sur la recherche de littérature scientifique et de données de la recherche. Les articles de recherche ayant été recherchés dans la base Scopus, seules certaines disciplines des Sciences Humaines et Sociales sont représentées 1. Néanmoins, l’analyse des 400 articles de recherche collectés apporte des résultats intéressants pour notre réflexion.

Tout d’abord, les auteurs notent que si la recherche d’information et la recherche de données se fondent sur un modèle identique composé de trois étapes (besoins utilisateurs, actions de l’utilisateur et évaluation), ils insistent sur les différences de pratiques, quelles que soient les disciplines, entre rechercher des publications (Information Retrieval) et rechercher des données de la recherche « Suggested that a framework based on IR alone is insufficient for completely understanding the complexity of data retrieval practices. »

Dans une seconde étude, Gregory, Cousijn, et Groth (2019) associent une analyse bibliométrique de la littérature scientifique consacrée aux pratiques de recherche avec des interviews (22 participants installés dans 12 pays) d’utilisateurs de la plateforme DataSearch développée par Elsevier. Les auteurs présentent plusieurs résultats importants:

Enfin, le rapport insiste sur la dimension socio-technique (Akrich 1992) du processus de recherche : “Some aspects of data-seeking practices may seem clearly social, such as contacting authors or forming collaborations to access and understand data. Some aspects may seem clearly technical, such as retrieving data through an API or using exploratory data analysis. The aim of socio-technical research is not to examine the social and the technical in isolation, but to examine the interactions that occur where the two intersect. Applying this perspective to our findings, we see that data search practices are situated within and formed by interactions between the social and the technical spheres.”
S’appuyant sur ces résultats, le rapport propose plusieurs recommandations concernant les fonctionnalités importantes que devraient offrir ces dispositifs socio-techniques. Ces recommandations sont les suivantes :

Standardiser les métadonnées qui décrivent les données de la recherche ;

Incorporer des techniques d’enrichissement des métadonnées ;

Développer des fonctionnalités qui permettent de stimuler des collaborations autour des données “data act as hubs for collaboration and creativity”;

Développer des API qui permettent d’automatiser certaines recherches dans le dépôt de données ;

Développer des outils d’interface de représentation visuelle qui permettent d’appréhender suivant différents points de vue les dépôts de données (Börner et Record 2017; Scharnhorst 2015).

Nous ajoutons à ces recommandations l’idée de favoriser ces intersections socio-techniques en conservant et en explicitant le contexte de création et de dépôt des données, mais aussi en inférant des passerelles pertinentes entre jeux de données.

Une équipe de chercheurs et d’archivistes a mené une étude sur les pratiques des utilisateurs de la plateforme EASY administrée par Digital Archiving and Networked Services (DANS) (Borgman et al. 2015) (voir chapitre Caractéristiques de quelques infrastructures de dépôt de données de la recherche). Cette étude s’appuie sur le dépouillement des journaux de transactions (log) exécutés sur la plateforme 2. Les auteurs insistent sur la difficulté à interpréter les journaux de transactions pour comprendre les pratiques de recherche des utilisateurs. Ils plaident pour le développement d’indicateurs de suivi plus précis, mais ils ne proposent pas de liste indicative. Ils prônent l’utilisation d’un identifiant unique pour exécuter une transaction dans EASY; il existe un tel identifiant aux Pays-bas, le Dutch Author Identifier (DAI), similaire à l’identifiant ORCID, mais cet identifiant est peu utilisé par les utilisateurs.

Les pratiques de dépôt pour le partage des données de la recherche

Les études sur les pratiques de dépôt de recherche sont relativement peu nombreuses, en raison d’une part de leur coût, en terme de temps d’analyse et d’autre part, du faible taux de réponse des utilisateurs à des questionnaires ou à des demandes d’entretien. Cette section développe 3 études de cas permettant de comprendre le comportement des chercheurs et des chercheuses vis-à-vis du partage de leurs données de recherche.

Étude de cas 1: DANS, Digital Archiving and Networked Services

Dans l’étude de Borgman, Darch, et Golshan (2018), dont nous allons reprendre les principaux résultats ci-dessous, les auteurs insistent sur la difficulté de réaliser des entretiens. Alors qu’ils visaient initialement une cinquantaine d’entretiens, ce sont finalement 9 entretiens avec des déposants qui ont pu être réalisés. Ces échanges ont toutefois permis d’obtenir des réponses intéressantes. Les motivations à partager leurs données de recherche invoquées par les déposants interviewés sont les suivantes:

  • La volonté de préserver les données dans un temps long, c’est-à-dire au delà de la carrière professionnelle du déposant;

  • Pour répondre à l’exigence de l’agence ou de l’institution qui finance le projet du déposant;

  • Pour permettre à d’autres chercheurs d’exploiter leurs données.

L’étude met aussi en lumière les pratiques parfois inconsistantes des déposants. Par exemple, alors que la plateforme EASY assigne un DOI aux données déposées, les déposants ne mentionnent pas systématiquement cet identifiant dans leurs publications.

Étude de cas 2: les unités de recherche en SHS de l’université de Rennes 2

L’enquête de 2017 de Serres et al. (2017) porte sur l’analyse des pratiques, besoins et attentes des chercheurs et chercheuses en SHS des unités de recherche de l’université de Rennes 2 en termes de stockage, partage et diffusion des données de la recherche. Cette étude approfondie, basée sur des analyses quantitatives et qualitatives, met en exergue de nombreux points intéressants qui incitent à une réflexion globale sur les systèmes de dépôt et de partage de données, non seulement d’un point de vue technique mais aussi épistémologique et sociologique.

Contrairement à l’étude de cas 1, les répondants n’évoquent pas comme motivation l’exigence du financeur dans le partage des données, et mettent en avant l’indépendance des chercheurs. Par ailleurs, le fait de permettre à d’autres d’exploiter leurs données leur paraît séduisant et altruiste d’un point de vue philosophique sur l’accès libre à la donnée, mais des barrières psychologiques viennent neutraliser cette motivation.

L’étude soulève la question importante de la définition du concept de données dans le monde de la recherche en SHS : une donnée est une production résultant d’un investissement (temporel, financier, personnel) souvent important des chercheurs et chercheuses dans l’obtention de cette production. S’il y a partage de la donnée, il doit donc pouvoir se faire dans un contexte sécurisé, avec un contrôle sur les modalités de ce partage (stockage et archivage maîtrisé) afin d’assurer une réutilisation qui tient compte de la propriété intellectuelle, mais aussi du contexte dans lequel cette donnée a pu être produite. L’hypothèse que les données produites dans un certain contexte et un but bien précis peuvent être réutilisables dans d’autres situations de recherche voire d’autres disciplines n’apparaît pas comme une évidence pour les chercheurs, ce qui influe énormément sur leur capacité ou leur volonté de partager leurs données. De ce point de vue, l’aspect disciplinaire de même que le type de données (qualitatives ou quantitatives) doivent être considérés3.

Un des aspects liés à la contextualisation de la donnée concerne une certaine difficulté pour les chercheurs à réussir à expliciter de façon la plus exhaustive possible les éléments qui vont permettre de rendre ces données le plus compréhensible possible et donc le plus facilement réutilisable. Il faut ajouter à cela une certaine appréhension face à un possible jugement des pairs sur le travail réalisé pour la production de ces données. Le rapport coût/bénéfice n’est pas toujours équilibré, et l’effort à apporter est important à considérer.

Les auteurs insistent surtout sur l’hétérogénéité et la diversité des situations de la production des données en SHS : “[…] Il faudrait adapter différentes solutions de stockage et d’archivage, à la fois selon les types de données, les volumes, le nombre d’acteurs concernés, la situation institutionnelle des équipes de recherche […]”(p 119). Un des points évoqués concerne aussi la formation des chercheurs sur les enjeux du partage de la donnée et spécifiquement sur les dimensions juridiques comme les licences (par exemple les Creatives Commons). Enfin, en ce qui a trait à la reconnaissance et la valorisation scientifique ne semble pas être un facteur de motivation dans le partage de la donnée, cet aspect étant plutôt obtenu par la publication scientifique.

Étude de cas 3: Un panel de chercheurs américains de 53 disciplines

Kim et JM.Stanton (2016) ont étudié les facteurs institutionnels et individuels qui influencent les comportements des scientifiques en matière de partage de données dans différentes disciplines scientifiques. Ils s’appuient d’une part sur le modèle de la théorie néo-institutionnelle (Scott 2001) et d’autre part sur la théorie de l’action planifiée (Ajzen 1991).

Le modèle de la théorie néo-institutionnelle identifie 3 types d’influence : la contrainte régulatrice, la pression normative et la pression cognitivo-culturelle:

  • Les contraintes régulatrices découlent des règles qu’une organisation ou un acteur faisant autorité fixe pour régir les comportements souhaitables des membres de l’organisation. La pression régulatrice fournit aux organisations ou aux individus des contraintes coercitives, et sanctionne légalement ceux qui ne s’y conforment pas;

  • La pression normative établit des normes communes pour la pertinence des comportements des individus ou des organisations. La formation, l’éducation et la collaboration enseignent aux individus des normes communes, et les individus sont moralement régis par ces attentes collectives;

  • Enfin, la pression cognitivo-culturelle renvoie à la compréhension commune du monde qui est considérée comme allant de soi. Les principes cognitivo-culturels sont profondément ancrés dans les communautés et bénéficient d’un soutien culturel. Les organisations ou les individus observent les activités des autres et imitent simplement leurs comportements.

Quant à la théorie du comportement planifié, elle explique le comportement d’un individu en fonction de ses intentions comportementales. Ces intentions sont à leur tour influencées par son attitude à l’égard d’un comportement, la perception des normes subjectives concernant ce comportement et le contrôle comportemental perçu.

Figure 3.1 : Modèle explicatif du comportement des scientifiques, par Kim et JM.Stanton (2016)

Sur la base de ces deux théories, Kim et JM.Stanton (2016) proposent un modèle de recherche (Figure 3.1) pour expliquer et prédire les comportements des scientifiques en matière de partage de données. Ils identifient deux groupes de facteurs influençant les comportements des scientifiques en matière de partage de données: les facteurs institutionnels et individuels. La théorie néo-institutionnelle explique le contexte dans lequel les scientifiques agissent individuellement, tandis que la théorie du comportement planifié explique les motivations sous-jacentes des comportements de partage de données des scientifiques dans un contexte institutionnel. Les auteurs postulent que chaque facteur peut avoir une influence positive ou négative sur le comportement des scientifiques vis-à-vis de leur politique de partage des données de la recherche.

Le modèle et les hypothèses développées ont été validés empiriquement en utilisant des données d’enquêtes recueillies auprès d’un panel de scientifiques appartenant à 53 disciplines scientifiques (l’échantillon final comprenait 1 317 scientifiques). Les résultats de l’enquête ont permis de confirmer certaines hypothèses concernant le comportement des scientifiques en matière de partage des données:

Le comportement des scientifiques est influencé non seulement par des facteurs individuels, mais aussi par des facteurs disciplinaires;

Au niveau individuel, l’avantage professionnel perçu et l’altruisme universitaire ont des influences positives significatives ;

L’effort perçu (coût additionnel en terme de temps et de financement) se révèle avoir une influence négative;

Le risque professionnel perçu n’est pas considéré comme significatif;

Au niveau disciplinaire, la pression régulatrice exercée par les revues et la pression normative sont toutes deux considérées comme ayant des influences positives significatives;

La pression normative exercée dans chaque discipline (ou communauté) scientifique influence considérablement les comportements des scientifiques en matière de partage des données.

Certaines hypothèses, communément admises ou proposées par différentes études antérieures, sont ici réfutées :

  • La pression régulatrice exercée par les organismes de financement ne semble pas avoir d’influence significative. Rappelons que le panel d’enquête est composé de scientifiques enregistrés dans la base de données Community of Science (COS) 4;

  • La disponibilité des dépôts de données ne semble pas avoir d’influence significative; mais cette conclusion est modérée par les auteurs, qui constatent qu’il existe actuellement de nombreux dépôts de données, en conséquence, contrairement aux années précédentes, les scientifiques disposent de plusieurs possibilités pour déposer leurs données.

Les auteurs concluent leur étude par une série de recommandations :

Mettre en œuvre des politiques strictes de partage des données par les agences de financement et les revues;

Promouvoir des normes communautaires de partage des données par l’éducation par les associations professionnelles;

Développer un système d’incitation pour fournir des crédits pour le partage des données;

Réduire les efforts nécessités par la mise en oeuvre du partage des données en standardisant les protocoles de dépôts;

Faciliter l’altruisme scientifique individuel des scientifiques en promouvant une culture altruiste de partage des données dans la communauté scientifique.

Les relations entre déposants, consultants et gestionnaires des plateformes

Dans leur étude, Borgman, Darch, et Golshan (2018) examinent les rôles et les relations entre des déposants de données, des consultants des données et des archivistes de la plateforme DANS/EASY (voir chapitre Caractéristiques de quelques infrastructures de dépôt de données de la recherche). Les auteurs insistent sur l’importance que jouent les archivistes dans leur rôle de médiation scientifique et technique (Figure 3.2). Ils servent de médiateurs pour le libre accès aux données de plusieurs manières. L’une d’elles consiste à fournir l’infrastructure - humaine, technique et institutionnelle - qui facilite le dépôt, la récupération et la gestion des données. Ils régissent les règles d’échanges entre les déposants et les consultants. Par exemple, alors que le dépôt avec des licences Creative Commons réduirait au minimum la médiation requise, ce modèle limiterait la capacité du DANS à acquérir des données auprès de chercheurs et chercheuses universitaires. En effet, cette communauté a exprimé une plus grande volonté de soumettre des données si elle pouvait garder le contrôle sur les personnes qui ont accès à ses données. En verrouillant les ensembles de données, les consultants potentiels sont obligés de s’inscrire auprès du DANS en indiquant leur nom et de contacter directement les déposants pour demander l’accès. Le processus de demande d’accès crée un canal secondaire permettant aux déposants et aux consultants de négocier l’accès aux ensembles de données. Dans le meilleur des cas, une conversation fructueuse conduit à un partage sélectif des ensembles de données appropriés, et peut-être à une collaboration. Comme les données sont difficiles à interpréter en dehors de leur contexte d’origine, ces relations personnelles peuvent être essentielles à leur réutilisation.

Figure 3.2 : Relations entre déposants, consultants et archivistes, par Borgman, Darch, et Golshan (2018)

Les auteurs notent que les modèles d’utilisation des plateformes présentent les mêmes caractéristiques que les distributions à longue traîne identifiées dans d’autres études sur le comportement des utilisateurs dans la recherche d’informations (Case 2006), c’est-à-dire avec quelques grands consultants ou déposants et de nombreux utilisateurs occasionnels, ce qui a plusieurs conséquences.

Les déposants qui soumettent un ensemble de données une ou deux fois par an, ou peut-être une fois dans leur carrière, ont besoin d’aide pour structurer et documenter leurs données à déposer. Les documentalistes en charge des plateformes doivent vérifier les métadonnées, la documentation et l’intégrité des données pour s’assurer que les données déposées répondent aux normes minimales. Sans cette assistance par des professionnels, les données sont inutilisables. Néanmoins, si les normes et la classification des métadonnées peuvent assurer un certain niveau de découverte de base, les auteurs estiment qu’il est pratiquement impossible de normaliser les formats et les vocabulaires dans une plateforme polyvalente qui couvre plusieurs disciplines.

Des investissements plus importants dans les métadonnées, la documentation et les outils de recherche permettraient d’améliorer la découverte, mais des compromis sont nécessaires dans ces investissements à forte intensité de main-d’œuvre.

Références

Ajzen, I. 1991. « The Theory of Planned Behavior ». Organizational Behavior and Human Decision Process 52 (2): 179‑211.
Akrich, M. 1992. The De-Scription of Technical Objects. Cambridge MIT Press.
Borgman, CL., P. T. Darch, et M. S. Golshan. 2018. « Digital Data Archives as Knowledge Infrastructures: : Mediating Data Sharing and Reuse ». JASIST, 1‑31. http://arxiv.org/abs/1802.02689.
Borgman, CL., H. Van de Sompel, A. Scharnhorst, et H. van den Berg. 2015. « Who uses the digital data archive? An exploratory study of DANS ». Poceedings of the Association for Information Science and Technology, 1‑4. https://doi.org/10.1002/pra2.2015.145052010096.
Börner, K., et E. Record. 2017. « Macroscopes for making sense of science ». Proceedings of the practice and experience in advanced research computing on sustainability, success and impact, 64‑74.
Case, D. O. 2006. Looking for Information: A Survey of Research on Information Seeking, Needs, and Behavior(2nd ed.). San Diego: Academic Press.
Gregory, K. 2020. « A dataset describing data discovery and reuse practices in research ». Scientific Data 7). https://doi.org/10.1038/s41597-020-0569-5.
Gregory, K., H. Cousijn, et P. Groth. 2019. « Understanding data search as a socio-technical practice ». Journal of Information Science. https://doi.org/10.1177/0165551519837182.
Gregory, K., H. Cousijn, P. Groth, A.Scharnhors, et S. Wyatt. 2019. « Searching data: A review of observational data retrieval practices in selected disciplines ». Journal of the Association for Information Science and Technology. https://doi.org/10.1002/asi.24165.
Kim, Y., et JM.Stanton. 2016. « Institutional and individual factors affecting scientists’ data-sharing behaviors: a multilevel analysis ». Journal of the Association for Information Science and Technology 67: 776‑99. http://dx.doi.org/10.1002/asi.23424.
Scharnhorst, A. 2015. « Walking through a library remotely. Why we need maps for collections and how KnoweScape can help us to make them ». Les cahiers du numérique 11: 103‑27.
Scott, R. W. 2001. Institutions and Organizations. Thousand Oaks, CA: Sage Publication.
Serres, A., M. L.Malingre, M. Mignon, C. Pierre, et D. Collet. 2017. « Données de la recherche en SHS. Pratiques, représentations et attentes des chercheurs : une enquête à l’Université Rennes 2 : Rapport ; Annexe 1 : Résultats de l’enquête statistique ; Annexe 2 : Croisements statistiques ; Annexe 3 : Extraits des entretiens ; Synthèse des résultats ». https://hal.archives-ouvertes.fr/hal-01635186v2.

  1. En janvier 2020, 30,4 % des titres de Scopus sont issus des sciences de la santé ; 15,4 % des sciences de la vie ; 28 % des sciences physiques et 26,2 % des sciences sociales. Scopus dispose d’un processus d’examen étendu et bien défini pour l’inclusion des revues ; 10 % des quelques 25 000 sources indexées dans Scopus sont publiées par Elsevier (Gregory 2020).↩︎

  2. En 2014, dernière année de l’étude, 73 659 fichiers simples ont été téléchargés (une collection peut contenir plusieurs fichiers simples). Les fichiers les plus téléchargés sont WoON2012 (Annual residential living conditions research) (549 téléchargements), Geological‐Geomorphological map of the Rhine‐Meuse delta, The Netherlands (404 téléchargements) et le Nationaal Kiezersonderzoek, 2010 (National voter survey) (391 téléchargements).↩︎

  3. On pourrait prendre en exemple les aspects de protection de la donnée notamment dans le milieu judiciaire.↩︎

  4. Disponible à l’url: https://www.bu.edu/researchsupport/tools-services/cos-pivot-how-to-guide/↩︎