UMR 5133

Suivre l'actualité par flux RSS 

Laboratoire Archéorient

Environnements et sociétés de l'Orient ancien

Image oiseau MOM

« Bulliot, Bibracte et moi »

"Bulliot, Bibracte et moi"

Transcription participative d’archives manuscrites de fouilles archéologiques, soutenue par le machine learning et le web sémantique.

AAP 2019 - Services numériques innovants, Ministère de la Culture
Coordinateur : Jean-Pierre Girard

Partenaires

  • CNRS, Archéorient, Persée
  • Bibracte EPCC, centre archéologique européen et musée
  • Musée des Beaux-Arts et d’Archéologie Joseph-Déchelette
  • Réciproque, agence-conseil multimédia
  • Société éduenne des lettres, sciences et arts, société savante

« Bulliot, Bibracte et moi » est un dispositif participatif associant le public du site et du musée de Bibracte à l’exploitation d’archives archéologiques, par la transcription et la documentarisation des carnets de fouille manuscrits de Jacques-Gabriel Bulliot. Il viendra étoffer la médiation mise en œuvre pour expliciter la chaîne opératoire de l’archéologie, en la replaçant sur une échelle historiographique, essentielle pour comprendre l’évolution de la perception du site de Bibracte.

Il s’agira, dans un premier temps, de mobiliser la communauté des familiers de Bibracte (le site archéologique et le musée, le site web et les réseaux sociaux – plus de 10 000 abonnés Facebook), pour l’inciter à transcrire les carnets (numérisés au format image, cf annexes) de J.-G. Bulliot (1817-1902), premier fouilleur de ce site exceptionnel, capitale des Éduens au Ier s. avant J.-C. Le corpus de 10 carnets représente 700 pages mêlant texte et croquis de terrain. Le traitement de ce corpus constituera une preuve de concept pour la médiation des archives de sites archéologiques. La transcription des carnets suivra deux phases successives :
  • une première interface web de transcription permettra la constitution, par les participants, d’un important jeu d’essai associant la page numérisée à son texte ;
  • une seconde interface de transcription automatique des pages manuscrites sera fondée sur la solution Transkribus de reconnaissance d’écriture manuscrite (en accès ouvert) ; le jeu d’essai sera réexporté dans Transkribus pour améliorer, par apprentissage profond (deep machine learning) supervisé, les performances du moteur d’intelligence artificielle ;
dans une troisième phase, les transcriptions de Transkribus seront corrigées puis validées par les participants eux-mêmes (et exportées dans Transkribus pour entraîner le moteur).
Les corpus obtenus seront automatiquement indexés par la plate-forme de l’UMS Persée pour être interrogeables en « plein texte », d’une part, et seront traités par Archéorient avec des outils de fouille de texte (text mining) afin de dégager des « nuages » de termes signifiants, d’autre part. Enfin, les outils de Persée permettant de segmenter les pages pour en isoler les croquis, le rapport au texte sera documenté.   Les données de ces deux corpus seront alors rapprochées :
  • des publications scientifiques d’époque présentant les résultats des fouilles, des plans du site et du terrain et des planches typologiques ; ce corpus, archivé à Bibracte et disponible en version océrisée, sera mis en ligne en accès ouvert sur le site de la bibliothèque numérique Persée, et formera une collection dite Perséide Bibracte : bibracte.persée.fr ;
  • des publications scientifiques relatives aux fouilles réalisées à nouveau sur le site depuis 1984, éditées dans la collection « Bibracte » du centre archéologique européen.

Après un temps de restitution et d’échange avec les participants, le rapprochement des sources archivistiques et scientifiques permettra de lancer un second programme participatif, fondé sur la montée en compétence du public acquise durant la première phase. Il s’agira cette fois de documentariser finement ces contenus :

  • pour l’indexation, en s’appuyant sur les technologies du web sémantique et sur un thésaurus issu du projet scientifique HyperThésau dont fait partie Bibracte EPCC ; l’encodage en XML-TEI des « entités nommées » s’appuiera sur les outils développés par l’UMS Persée ;
  • pour la localisation, en géoréférençant les éléments du corpus ;
  • à mesure de leur implémentation dans Persée, les outils du consortium IIIF seront ensuite utilisés pour assurer l’interopérabilité et l’annotation des images des carnets.

>>> Carnet de recherche dédié à la transcription et à l'édition des carnets de fouille de Jacques Gabriel Bulliot sur le site de Bibracte.

 

 Logo CNRS