Aller au contenu principal

ANR HisArc-RDF

ANR HisArc-RDF

Partage et réutilisation de données archéologiques et historiques : une description en RDF appuyée sur les référentiels et les normes du web sémantique

 Projet ANR Flash données ouvertes (2019-2021)

Partenaires scientifiques principaux

  • UMR 5133 Archéorient (porteur) : Marie-Odile Rousset, CR CNRS
  • UMR 5190 LARHRA (plateformes symogih.org et OntoME) : Francesco Beretta, CR CNRS

Partenaires scientifiques associés

  • FR 3747 Maison de l’Orient et de la Méditerranée (plateforme Opentheso) : Miled Rousset, IR CNRS
  • UMR 5189 HiSoMA (Inscriptions grecques et latines de Syrie) : Julien Aliquot, CR CNRS
  • Bibracte EPCC : Vincent Guichard, Directeur scientifique
  • UMR 6249 Chrono-Environnement (ingénierie de prospection et spatialisation) : Matthieu Thivet, IR univ. Franche-Comté
  • UMR 7044 Archimède (webSIG ArkeoGIS) : Loup Bernard, MCF univ. de Strasbourg
  • UMR 8546 AOrOc (webSIG ChronoCarto et logiciel ETIAB) : Michel DABAS, CR CNRS
  • Le réseau SPATIO des MSH : Loup Bernard, Matthieu Thivet
  • EA 3083 ERIC (ingénierie des connaissances, lacs de données) : Jérôme Darmont, Prof. univ. Lyon 2
  • ABES (opérateur de services documentaires, dont IdRef) : François Mistral, Resp. IdRef-Autorités
  • Archéodunum (société privée d’archéologie préventive) : Bertrand Bonaventure, Dir. de projets

Le projet HisArc-RDF réunit un consortium pluridisciplinaire : archéologie, histoire, géographie, terminologie, bibliographie et informatique. La mise en commun des expériences, appuyée sur le partage et l’articulation de méthodes et d’outils logiciels et sémantiques développés dans chaque discipline, permettra de prototyper (mise en oeuvre et tests itératifs) une chaîne opératoire « FAIR » sur des jeux de données archéologico-historiques structurellement et sémantiquement hétérogènes :

  • élaborer, pour chacun des jeux de données, un plan de gestion (PGD-DMP) fondé sur les recommandations de l’Union européenne et du Plan national pour la Science ouverte ;
  • développer deux outils logiciels : le premier opérant l’articulation en webservice entre les outils OntoME (apparier des ontologies) issu d’une communauté d’historiens et Opentheso (aligner des thésaurus) issu d’une communauté d’archéologues ; le second créant une interface générique d’alignement automatique supervisé entre Opentheso et tout référentiel du web sémantique ;
  • documenter chaque jeu de test par une chaîne de traitement à granularité fine, fondée sur l’usage de micro-thésaurus, aux concepts descripteurs alignés sur des référentiels du web sémantique, puis sur l’appariement de l’ontologie exprimée par le thésaurus avec les normes et ontologies de référence des communautés documentaire et scientifique ; grâce aux logiciels développés, cette phase débouchera sur une description structurée en RDF des jeux de données-tests permettant après publication en ligne le signalement et la réutilisation directe (« calculabilité ») des données ;
  • animer, par un programme de formation et d’ateliers expérimentaux, un large réseau d’acteurs de l’histoire et de l’archéologie (supports de référentiels, groupes de recherche pluridisciplinaires, archéologies programmée et préventive, terrains européens et extra-européens, acteurs académiques et acteurs privés), en vue de diffuser les bonnes pratiques supportées et exprimées par la chaîne opératoire et les outils mis au point au cours du projet.

Le fondement du projet HisArc-RDF est triple : une convergence de vues née de la confrontation de pratiques et d’expériences pluridisciplinaires autour du cycle de vie de la donnée, de son acquisition à sa publication, son partage et sa médiation ; une acculturation des communautés archéologiques et historiques à l’enjeu pratique et scientifique de l’alignement de leurs vocabulaires sur des référentiels pivots du web sémantique ; enfin la nécessité d’une chaîne de traitement susceptible d’appropriation par ces communautés – c.-à-d. la plus proche possible des pratiques-métiers et du travail sur le terrain et dans les laboratoires.

L’aboutissement du projet sera la réalisation puis la publication ouverte d’une méthodologie et des outils associés en vue d’implémenter dans nos disciplines un écosystème de production, de publication et de partage de données « FAIR », appuyée sur une preuve de concept : l'expérience-utilisateur visée est le partage et une réutilisation effective des données extraites des systèmes d’enregistrement (raw data), indépendamment de la structuration propre à telle ou telle base, à charge pour chaque interface d’exploitation/visualisation de venir les chercher et de les configurer pour permettre leur ré-exploitation. La mise en place rapide de ces linked open data se fera au service du « public » académique le plus large : étudiant.e.s, musées et équipes de recherche.