cathedral

A datacenter of the future housed in a former cathedral in the style of St Peter’s in Rome, generated thanks to mukaist/DALLE-4K, https://huggingface.co/spaces/mukaist/DALLE-4K.


Introduction, mise en contexte

Après quelques mois de travaux et de conceptualisation d’une chaîne de traitement utilisant les nouvelles technologies d’intelligence artificielle, nous avons souhaité organiser un hackathon au sein du HNLab et de l’équipe Huma-Num afin d’avancer sur ces questions.

Le projet prend sens au sein de la conceptualisation et de la mise en oeuvre de la refonte du moteur de recherche académique Isidore à horizon 2030. Cette refonte a pour objectif de permettre une amélioration des fonctionnalités actuelles du moteur tout en intégrant en son sein les dernières technologies offertes par l’arrivée et la démocratisation des grands modèles de langue.

Dans ce contexte, le HNLab travaille depuis plusieurs mois sur une fonctionnalité précise, le RAG (pour Retrieval Augmented Generation). Le RAG est une technique innovante qui combine les capacités de génération de langage naturel et de recherche d’information pour améliorer les performances et l’interprétabilité des grands modèles de langage, en tentant de minimiser ses aspects boîte noire en s’appuyant sur un corpus spécifique fourni par l’utilisateur pour générer ses réponses.

Lorsqu’une requête est soumise, le système récupère des informations pertinentes depuis la base de données fournie par l’utilisateur, les combine avec la requête de l’utilisateur et passe ensuite la requête augmentée au GML (Grands Modèles de Langue) pour générer une réponse fondée sur le contexte.

Cette approche entend minimiser des problèmes tels que les hallucinations, les connaissances obsolètes et les limitations de raisonnement dans les GML. En intégrant des sources de connaissances externes, le RAG vise à améliorer la qualité globale, l’exactitude des réponses des GML et fournir du contexte interprétatif à la réponse tout en les maintenant à jour un corpus de données qui peut être enrichi.

Méthodologie HNLab

Depuis quelques mois, le HNLab réfléchit à la mise en oeuvre d’un RAG exécuté sur des corpus de recherche pré-ciblé et sur lesquels l’utilisateur peut accéder à travers plusieurs prismes :

  • Des clusters de communautés identifiées à partir du texte au sein des articles.
  • Les auteurs du corpus et leurs relations entre eux.
  • Certains termes clefs.

L’idée générale du workflow est de pouvoir pratiquer le RAG sur un corpus massifs de documents tout en identifiant préalablement les sujets d’intérêts du corpus afin de répondre de façon précise aux questions de recherche du chercheur ou de l’utilisateur.

clusterrag

©HNLab, generated thanks to Excalidraw.

Tâches du hackathon

  • RAG
    • Faire fonctionner la chaîne RAG avec les fonctionnalités désirées (source, auteur, autres options)
  • Colloque ColDoc
    • Présentation répondant aux critiques: quelle méthode de RI utilisée et quel intérêt pour les GLAM ?
  • Suite ?
    • Ce travail servira ensuite à un micro service ? Un article plus long ?

Motivations

  • Interroger un grand corpus dans un contexte de recherche : montrer par nos résultats l’aisance de décrire/explorer un grand corpus, retrouver des questions de recherche/problématique spécifiques
  • Informations sourcées et possibilité de retour aux documents d’origine possible ainsi qu’aux métadonnées associées (auteur, thème, contexte …).
    • VS grand modèle de langue avec effet boîte noire.
    • Interprétabilité des résultats avec renvoi aux références utilisées dans le corpus par le modèle.
      • Passages, auteurs, références bibliographiques, nom de l’article, date, etc.
  • Comparaison des résultats des questions en changeant de corpus (ex: la notion de “style” en histoire de l’art HN sur un corpus contemporain VS corpus classique) : résultats sur une question en changeant le corpus, voire même en interrogeant le LLM sans corpus.

Corpus

Le corpus NIPS (https://www.kaggle.com/datasets/benhamner/nips-papers) sur lequel nous avons fait nos premiers tests n’est pas tout à fait adapté à la conf ColDoc. Besoin de trouver un corpus GLAM.

Sources

  • NIPS papers (https://www.kaggle.com/datasets/benhamner/nips-papers).
  • Corpus BnF ? Voir API et jeux de données (https://api.bnf.fr).
  • Corpus Léa Maronet (doctorante, HNLab & Université de Montréal) : revues d’histoire de l’art numériques (Humanités numériques en français et Journal of Digital Art History en anglais) + revues en histoire de l’art “classique”

Améliorations

  • Sorties : Avoir dans la sortie à la fois le texte généré par l’algo de RAG, les extraits sur lesquels s’appuie le modèle pour formuler la réponse, les métadonnées associées aux extraits (auteur, article, date).
  • Gestion du prompt : avoir la possibilité de modifier le prompt de façon à l’adapter au corpus.
  • UI_UX : confrontation des sorties avec les références sur lesquels s’appuie le modèle dans les données pour mettre en évidence ce qui est sourcé.
  • Interprétabilité : fonction de retour aux textes avec génération du/des passages sur lesquels s’est apppuyé le modèle pour répondre à la question posée.

Limites

  • Bien mettre en relief le fait que l’algorithme se fonde sur un corpus : il est nécessaire connaître (un tant soit peu) / ou de construire son corpus pour l’interroger.
    • Poser des questions génériques à un modèle aura pour effet d’obtenir une réponse qu’on aurait pu avoir grâce à un modèle généraliste.
      • TODO : comparer une réponse RAG avec une réponse GPT sur une série de questions identiques (questions génériques / questions spécifiques) pour mettre en évidence la valeur ajoutée du RAG.
  • Bien mettre en évidence l’importance de la formulation de la question. Un modèle de RAG ne pourra répondre que s’il a des éléments sur lesquels s’appuyer à partir de l’embedding.
    • Éléments de pédagogie ici à mettre en place pour les utilisateurs afin qu’ils comprennent les enjeux des outils sous-jacents à l’oeuvre.

Question corpus DAH

Dans cette section, nous listons l’ensemble des questions que nous pourrons poser au LLM s’appuyant sur un corpus pour pratiquer le RAG.

Contexte

Le style a été très critiqué en histoire de l’art : essentialisation de la notion. Opposition des revues d’histoire de l’art classiques qui n’utilisent plus la notion de style, de forme et l’histoire de l’art numérique qui y revient de plus en plus avec l’informatisation. On parle d’un “formalisme computationnel”.

Questions générales

  • Quels auteurs sont cités lorsque la notion de “style” est utilisée ?

  • Quels termes : “style”, “manière” (“maniera”), “forme”, “connoisseurship” ?

  • Comment la notion de “style” en histoire de l’art est-elle traitée dans le corpus / dans le cluster ?

  • À quelles notions les approches structuralistes et post-structuralistes font-elles référence dans leurs articles ?

  • Peux-tu me décrire les enjeux du formalisme computationnel en histoire de l’art ?

Questions spécifiques à certains articles identifiées en amont

  • dahj2021_7.pdf :

Question : What are the interrelations between digital images, museum spaces, and practices of digital curation ?

Contexte de la question dans l’article :

Our project draws on affordance theories in examining the interrelations between digital images, museum spaces, and practices of digital curation.

Question : How do users interact with and talk about digital images with others?

Contexte de la question dans l’article :

How do users interact with and talk about digital images with others?

Question : Do you have an example of the interconnections between digital and physical environments created through curatorial practices ?

Contexte de la question dans l’article :

Let us consider an example of the interconnections between digital and physical environments created through […]

  • daj2020_3.pdf :

Question : Can you tell me about curatorial practices in the post-digital age and how online practices call into question those practices ?

Contexte de la question dans l’article :

The artist Daniel Buren, for example, complained on the occasion of documenta 5 in 1972 that exhibitions no longer tended to exhibit artworks, but rather themselves.6 In 2003 Jens Hoffmann, an exhibition organizer, initiated the project “The Next Documenta Should be Curated by an Artist”, supported by artists such as Marina Abramovic, Tino Sehgal, or Lawrence Weiner.7 In 2017 the critic, media and art scientist Stefan Heidenreich declared the curatorial practice to be undemocratic, authoritarian and corrupt.

Question : What are the positions of Daniel Buren towards contemporary exhibitions ?

Question : Who is Jens Hoffmann ?

Question : What is the position of Stefan Heidenreich towards curatorial practices ?

  • daj2015_6.pdf :

Question : Could you summarize for me the challenges of contemporary quantitative analysis in art history?

Contexte de la question dans l’article :

This quantitative aspect of art history needs specific types of data acquisition. Structured data collections, alongside standard bibliographies, are 5 crucial for advanced quantitative studies .

Question : Could you make me a synthesis of the relation between distant reading in literature and the distant viewing in art history ?

Contexte de la question dans l’article :

Reference works and reports provide evidence about the increasing importance of quantitative data, generating new forms of knowledge in the digital age of art history. They can be analyzed computationally, as demonstrated for example in the pioneering work of Schich and Ebert-Schifferer, a trend following innovative research in literary history and therefore termed ‘distant viewing in art history’.

Typologie des questions et sorties du RAG

Créons d’abord une typologie des différentes questions que l’utilisateur ou le chercheur pourrait poser à un corpus :

  • Questions très précises sur le corpus.
  • Questions surplombantes sur les thèmes du corpus.
  • Questions sur la problématique d’un article.
  • Questions qui ne portent pas sur le corpus (pour voir comment réagit le modèle).
  • Questions génératrices de questions.

Questions très précises sur le corpus

Contexte de la question :

The artist Daniel Buren, for example, complained on the occasion of documenta 5 in 1972 that exhibitions no longer tended to exhibit artworks, but rather themselves.6 In 2003 Jens Hoffmann, an exhibition organizer, initiated the project “The Next Documenta Should be Curated by an Artist”, supported by artists such as Marina Abramovic, Tino Sehgal, or Lawrence Weiner.7 In 2017 the critic, media and art scientist Stefan Heidenreich declared the curatorial practice to be undemocratic, authoritarian and corrupt.

Question : What are the positions of Daniel Buren towards contemporary exhibitions ?

Output du RAG:

According to the information provided, Daniel Buren’s position towards contemporary exhibitions is that he complained that exhibitions no longer tend to exhibit artworks, but rather themselves. This is mentioned in the context of Documenta 5 in 1972.

Questions surplombantes, exogènes sur les thèmes du corpus

Question : How does the notion of style evolve throughout the corpus?

Output du RAG:

Questions sur la problématique d’un article

Contexte de la question : titre de l’article daj20203.pdf : “_Meta-curating: online exhibitiions questioning curatorial practices in the post-digital age

Question : Can you tell me about curatorial practices in the post-digital age and how online practices call into question those practices ?

Output du RAG:

In the post-digital age, curatorial practices are being questioned by online practices, which have quickly evolved and professionalized over the past decades. The rise of hybrids between digital and physical spheres has led to a need for curators to identify ways of bridging the “barriers” between these two realms. This has given rise to the concept of “meta-curating,” which was introduced by curator Paul O’Neill in 2010.

Meta-curating refers to the process of questioning and reflecting on curatorial practices in the post-digital era. It involves examining how the interaction and interdependence of users, curators, and artists have evolved in response to the development of digital technologies and the internet.

In the post-digital age, curatorial practices are no longer limited to traditional physical spaces such as museums and galleries. Online exhibitions have become a new platform for curators to showcase artworks and engage with audiences. However, this has also raised new challenges and questions about the role of the curator, the nature of art, and the relationship between the artist, the curator, and the audience.

The concept of meta-curating highlights the need for curators to be aware of the changing nature of their practice and to be willing to question and reflect on their own role in the post

Questions qui ne portent pas sur le corpus

Question : Can you tell me about Léa Maronet in Art history ?

Output si pas assez d’informations:

There is no information about Léa Maronet in the provided papers of Art History. The papers mention various artists such as Shana Moulton, Lynn Hershman Leeson, Abita Rezaire, Claudia Hart, Eva Wohlgemuth, Shu Lea Cheang, Patrice Caire, and Martine Neddam, but not Léa Maronet.

Questions génératrices de questions

Question : au regard du corpus et de ses grands enjeux, quelles grandes questions de recherche penses-tu qu’il soulève ?

Output du RAG:

The major research questions raised by the corpus and its major issues include:

  1. How do we build non-hierarchical relationships in interdisciplinary collaborations between art history and computer science?
  2. What are the important art historical questions that can be addressed with the help of digital tools?
  3. How do we prioritize the research preoccupations of both disciplines in digital art history?
  4. What is the added value of digital art history in academ1;31mmic papers, and how can it be proven through concrete examples and research results?
  5. How can we balance the demand for digital art history with the need for more research and concrete results?

These questions highlight the need for a more nuanced approach to digital art history, one that prioritizes meaningful research questions and interdisciplinary collaboration over methodological fo

Résumé d’un article du corpus

Question : Can you give me a structured summary of the following article (topics, issues, problems, conclusions)?

Contexte, article utilisé : dahj2021_2_1.pdf

Output du RAG:

Summary of the Article:

Topics:

  1. The relationship between humans and Nature in the digital age.
  2. The concept of artificial life and its potential to interact with the natural world.
  3. The role of digital technology in shaping our understanding of Nature and the world around us.
  4. The potential of artificial life to promote empathy and understanding between humans and other living beings.
  5. The importance of considering the entanglement of life, artificial and organic, in the digital age.

Issues:

  1. The tendency to define Nature as something separate from humans, leading to a binary divide between “us” and “them”.
  2. The impact of digital technology on our experience of Nature, including the creation of “filter bubbles” and the reinforcement of aesthetic biases.
  3. The potential for artificial life to create new narratives and experiences that challenge our understanding of the world.
  4. The need to consider the entanglement of life, artificial and organic, in the digital age, and to promote a more nuanced understanding of the relationships between humans, technology, and the natural world.

Problems:

  1. The lack of representation of the natural world in digital platforms, leading to a skewed understanding of Nature.
  2. The reinforcement of human-centric,

Parcours utilisateurs

À partir de cette typologie de questions et des différents points ou prismes d’entrées sur le corpus, on peut imaginer des parcours utilisateurs différents sur les corpus sur lesquels vont s’appliquer le RAG.

L’explorateur

Le chercheur souhaite explorer un champ de recherche et un corpus qu’il ne connaît pas.

Typologie des questions :

  • Questions génératrices de questions.
  • Questions qui ne portent pas sur le corpus.

Parcours typique :

  • Analyse par auteurs influents.
  • Analyse différentielle par clusters.
  • Analyse diachronique.
  • Résumé automatique d’un article.
  • Analyse lexicale de certains terme dans le champ de recherche.

Sorties attendues :

  • Un document spécifiant les enjeux généraux du champ de recherche et du corpus à l’étude.
    • Problématiques et enjeux généraux du corpus.
    • État de l’art.
  • Une bibliographie organisée chronologiquement des auteurs les plus influents du corpus.
  • Une cartographie des différents champs ou communautés du corpus.
  • Un résumé de certains articles majeurs du corpus.

Le chercheur d’or

Le chercheur connaît son domaine de recherche, il connaît les différents champs mais il a envie d’approfondir ses connaissances sur certains point précis, voir l’évolution de son domaine dans les dernières années, comparer la manière dont certains thèmes/sujets au sein de sa discipline sont traités par les autres auteurs.

Typologie des questions :

  • Questions surplombantes ou exogènes sur les thèmes du corpus.
  • Questions sur la problématique d’un article.
  • Questions précises sur le corpus, sur certains sous-corpus.

Parcours typique :

  • Analyse diachronique des auteurs, des thèmes et des évolutions majeurs du corpus (articles de références, influences, nouveaux champs de recherche émergeants).
  • Exploration et analyse de certains clusters et définition des clusters étudiés mettant en évidence leur spécificités.
  • Analyse de positions de certains auteurs du corpus ou de certaines références présentes dans le corpus.
  • Identification de nouvelles références bibliographiques à ajouter à sa bibliographie.

Sorties attendues :

  • Une visualisation évolutive du champ de recherche, avec les articles et auteurs de références et les nouveaux entrants.
  • Un historique des questions posées et des réponses générées.
  • Un historique des questions posées et des réponses générées.
  • Une structuration des sorties avec des retours aux textes permettant la contextualisation et l’interprétabilité des réponses (choix de la fenêtre de retour aux textes + mise en forme des réponses).
    • Références et citations précises.
  • Une bibliographie organisée chronologiquement et par cluster permettant une identification de nouveaux auteurs ou articles à aller étudier.

L’expert

Un chercheur spécialiste d’un champ de recherche souhaite poser des questions extrêmement précises sur un corpus.

Typologie des questions :

  • Questions très précises sur le corpus, sur certains sous-corpus.
  • Questions surplombantes ou exogènes sur les thèmes du corpus.
  • Questions sur la problématique d’un article.
  • Questions (potentiellement exogènes) sur la position/le cadre épistémologique de l’article.

Parcours typique :

  • Analyse de certains clusters et définition précise des clusters étudiés mettant en évidence leurs spécificités.
  • Analyse de positions de certains auteurs du corpus ou de certaines références présentes dans le corpus.
  • Analyse diachronique des auteurs ou des thèmes majeurs du corpus (articles de références, influences)

Sorties attendues :

Les sorties attendues sont proches en vérité de celles du chercheur d’or.

  • Un historique des questions posées et des réponses générées.
  • Une structuration des sorties avec des retours aux textes permettant la contextualisation et l’interprétabilité des réponses (choix de la fenêtre de retour aux textes + mise en forme des réponses).
    • Références et citations précises.
  • Une bibliographie organisée chronologiquement et par cluster permettant une identification de nouveaux auteurs ou articles à aller étudier.

Obstacles

  • Infos éditoriales qu’on pourrait retirer dans le RAG.
  • Lemmatization : voir les erreurs qui peuvent subvenir (ex : data = datum sous sa forme lemmatisée avec SpaCy).
  • Anglais/Français : gestion d’un corpus multilingue.
  • Nombre de clusters / jeu avec les paramètres / interprétabilité : donner la main à l’utilisateur implique une grande pédagogie et vulgarisation de ces algorithmes et de leurs enjeux.
  • Ajouter d’autres algorithmes que le tf-idf pour les détections de communautés ?
  • Chercher dans le tfidf un mot -> pour sélectionner le corpus de contexte.
  • Ajout d’une trame temporelle sur l’analyse du corpus.
  • Cluster hiérarchique à implémenter ?
  • Application interactive (ex : ttps://researchrabbitapp.com/).
  • Caractérisation des clusters : similarités/différences/comparaison.
  • Algorithme de similarité entre les titres voire titres + corps.
  • Recherche par vecteur (chromadb) limitée -> autres options comme “CTRL-F” peuvent être envisagée : recherche lexicale.
  • Fenêtres contextuelles : peut-être passages retrouvés par RI plus longs (jusqu’à 128k pour LLama 3.1)
  • Interface à la Borzic -> retour à l’article.
  • Associations par vecteurs quand pas de résultats -> exemple de Léa qui ressort des passages avec des femmes ?
  • Poids d’un article par rapport aux autres dans un cluster ?
  • Affichage: pour tf-idf, afficher les mots d’origine ?
  • Gros obstacle: quelles questions pour cette chaine ? exemple de “What are the main topics ?”
  • Nb de clusters désirés -> recherche automatique en variant les paramètres umap/dbscan -> résultat
  • Question répondue par un article -> remonter à ses références -> soit prendre toute la biblio, soit chercher les citations proches
  • Identification automatique de la bibliographie d’un article.
  • Les passages sont-ils représentatifs ?
  • 5 notebooks :
    • Par cluster
    • Par auteur
    • Par date
    • Par mot/lexique
    • Aléatoire / Représentatif
    • Résumé d’un article du corpus
  • Quantifier la qualité des sorties automatiques :
    • ex par représentativité
    • taux de citation/génération

Bilan / perspectives

  • Nécessité de multiplier les entrées possibles sur les données de façon à ce que le chercheur ait le maximum de flexibilité dans l’exploration de son corpus :
    • Un chercheur peut vouloir interroger son corpus :
      • De façon chronologique ou diachronique.
      • Par auteurs.
      • Par clusters.
      • Par termes présents ou non-présents dans le corpus.

Il faut donc permettre à l’utilisateur d’avoir la main sur les paramètres de l’algorithme (qui devront être vulgarisés et explicités) et lui donner la possibilité de naviguer facilement dans les corpus et sous-corpus créés (création de sous-corpus et possibilité de croiser les fonctionnalité : un filtre par date puis une clusterisation, par exemple).


What’s left TODO :

Hiérarchie des besoins ou fonctionnalité les plus urgents identifiés en fin de hackathon :

  • Implémentation du slider dans la visualisation Bokeh pour analyse de l’évolution des clusters dans le temps et implémentation d’une fonction de création de sous-corpus à RAG à partir de cette analyse diachronique.
  • Création d’une variable d’environnement pour le token Llama.
  • Dans le prompt, “You are a helpful expert of Art History”, adapter le code de façon à ce qu’il s’adapte à la discipline du chercheur.
  • Finaliser la connexion entre le filtre auteur et les fonctionnalités de RAG.

Références

Playlists

A voir éventuellement