Retour d’expérience du projet Chine CoREF avec Archive-it, archiver des sites Web et leurs évolutions pour constituer des corpus pour la recherche
Voir les logs de : Actus
• Stéphane Pouyllau, Julien Schuh, Jean Delahousse • Séminaire de recherche, Sciences humaines et sociales, Histoire, Données de la recherche, Archives du Web, Archives.org, IA, RAG
La première séance 2024-2025 du séminaire conjoint entre la MSH Mondes et Huma-Num Lab, qui continue sur le thème « Les sciences humaines et sociales à l’ère numérique : entre Low Tech et informatisation générale des données », aura lieu le 9 décembre de 14h à 16h à l’Université Paris Nanterre (Bâtiment de la Formation continue, Learning Lab) en mode hybride.
Jean Delahousse et Stéphane Pouyllau1 présenteront un retour d’expérience sur l’archivage de sites web dans le cadre du projet Chine CoREF. Cette séance est organisée en lien avec le projet STRAD (Stratégies pour l’Archivage Durable), qui expérimente au sein de la MSH Mondes des solutions de sites statiques pour répondre aux enjeux d’obsolescence technologiques et de coûts écologiques liés à la plateformisation des sites et des bases de données produites dans le cadre de projets en SHS.
Archive.it est un outil de capture, de préservation et d’analyse de copies instantanées de sites web et d’extraction des contenus. Après une présentation de l’outil et de son usage pour la recherche en SHS sur les contenus du Web, nous échangerons sur les possibilités offertes par les corpus Web ainsi constitués pour l’entraînement d’IA dans le cadre du Retrieval-Augmented Generation2 en SHS.
- Jean Delahousse, Consultant web sémantique, Knowledge Graph, Ontology, IA, Open Data,
- Stéphane Pouyllau, Ingénieur de recherche au CNRS, est directeur adjoint de l’IR* Huma-Num et responsable de l’HNLab
Informations sur https://www.mshmondes.cnrs.fr
-
POUYLLAU, S. (2024, octobre 23). Sciences humaines, sciences sociales à l’ère numérique : présentation. Université d’Evry Paris Saclay. https://doi.org/10.5281/zenodo.13981657 ↩
-
Ressources disponible : POUYLLAU, S., FACI, A., SILVESTRE DE SACY, A., & MARONET, L. (2024, octobre 31). ISIDORE 2030 : de l’IA de traitement au Retrieval Augmented Generation pour les SHS. HN Lab. https://doi.org/10.5281/zenodo.14019295 ↩