Au HNLab, nous réfléchissons depuis un certain temps à la problématique du traitement des données appliquée aux Sciences Humaines et Sociales (SHS). Notre réflexion s’articule notamment autour de deux questions corrélatives :

  1. les questions d’infrastructures, répondant à des questions du type :
    • Quelle plate-forme utiliser ?
    • Quelle infrastructure mettre en place ?
    • Quels services d’accompagnement proposer et jusqu’à quel niveau ?
  2. Les questions des outils de traitement à mettre à disposition des communautés :
    • Quels outils proposer ?
    • Comment concilier généricité des outils et diversité des pratiques et des cas d’études en SHS ?
    • Sous quelle forme proposer ces outils (notebooks, solutions no-code, visual scripting ?) et comment permettre aux communautés de se les approprier ?

C’est dans ce cadre que nous avons constaté depuis quelques années la réduction du coût d’accès à des frameworks de machine learning que ce soit dans le monde de la programmation en Python (Scikit-Learn) ou en R (Tidymodels). Ici, la question du langage nous paraît relativement secondaire, liée à des questions d’habitude ou de pratiques personnelles. Un chercheur formé à un certain langage et environnement aura tendance à rester dans sa pratique sans changer ses habitudes, à l’exception de certaines tâches qui nécessiteraient l’utilisation d’un langage ou d’un service spécifique.

Cependant, si les usages de ces frameworks et de ces outils mobilisant l’intelligence artificielle ou le machine learning se démocratisent grandement, les questions de mise en place de ces pipelines demeurent encore pour beaucoup de communautés SHS un enjeu ou un défi. De même, c’est aussi la question des biais statistiques à l’oeuvre dans la mise en place de ces méthodes qui a particulièrement retenu notre attention ; à l’heure où de plus en plus de chercheurs utilisent ces frameworks ou s’y intéressent, comment se prémunir des biais statistiques pour des communautés qui, pour la plupart, ne viennent pas du monde des mathématiques et des statistiques ? Comment être sûr qu’une analyse mobilisant ces outils ne tombe pas dans un écueil statistique fort qui occulterait certains biais ?

C’est à partir de ces questions que nous avons lancé au HNLab une prestation autour de la construction de pipelines génériques de traitement automatique des langues qui tentent de concilier un fort ancrage dans les pratiques de recherche à une généricité suffisante pour être applicable à plusieurs champs disciplinaires. Dans ce cadre, il semble falloir répondre à deux enjeux :

  • D’une part, construire des pipelines qui soient suffisamment proches de cas d’étude concrets pour pouvoir mettre en évidence les possibilités permises par ces outils. Nous avons pour cela mis en place une série d’ateliers de recueil de besoins avec des chercheurs qui nous permettent d’être au plus proche des pratiques réelles dans la conception et la modélisation des pipelines.

  • D’autre part, construire des pipelines qui soient suffisamment génériques pour pouvoir être applicables ou interopérables avec d’autres outils ou cas d’étude proches. Pour cela, nous réfléchissons avec la société Maestria Innovation à la construction de modules qui permettraient, tout en étant liés les uns aux autres, de pouvoir pratiquer certaines tâches communes sous la forme de modules indépendants : prétraitement des données, annotation des données, statistiques descriptives du corpus, algorithmes de machine learning, tests statistiques et indicateurs de performances des modèles.