La nouvelle frontière : construire des corpus massifs pour les Humanités computationnelles

Médiation
Dates
lundi 2 juin 2025 17h30 -18h30
Lieu
ENS de Lyon, salle D2-034
15 parvis Descartes, Lyon 7e

Dans le cadre de L’École de printemps ENEXDI 2025
Responsables de la formation : Fatiha IDMHAND, Giovanni Pietro VITALI 
Comité d'organisation : Matthias GILLE LEVENSON (Biblissima+), Ariane PINCHE (CNRS), Marianne REBOUL (ENS de Lyon)

Les conférences sont accessibles en présentiel, mais également en visioconférence. Pour assister à distance, merci d’envoyer un message à enexdiatsciencesconf [dot] org (enexdi[at]sciencesconf[dot]org) avant le 28 mai 2025.

Conférence publique
Simon GABAY (Université de Genève)
La nouvelle frontière : construire des corpus massifs pour les Humanités computationnelles

Les analyses computationnelles en sciences humaines nécessitent de grandes quantités de données qui n’existent que sous un format analogique (manuscrits, livres imprimés, etc.). Cependant, convertir de grandes quantités de ces documents analogiques en données riches et exploitables par machine pose un problème important en termes de capacité de calcul, ce qui limite considérablement la création des corpus nécessaires à la recherche. Nous souhaitons aborder la question de cette barrière technique en proposant un pipeline qui maximise à la fois la vitesse d’exécution et la qualité du résultat, en utilisant uniquement des technologies ouvertes. Sur un corpus dépassant le million de pages, nous analysons la mise en page, reconnaissons les caractères et restructurons l’information pour permettre l’exploration scientifique, la diffusion et l’archivage des documents en utilisant les normes DH. Afin de limiter au maximum un temps de calcul qui s’élève à des milliers d’heures, notre solution s’appuie sur du calcul haute performance en plus d’une optimisation du code et d’une sélection rigoureuse des modèles d’IA.

Organisateur
GILLE-LEVENSON Matthias
PINCHE Ariane
REBOUL Marianne
Intervenant
GABAY Simon