Une collaboration fructueuse au profit de l'indexation collaborative
Le 21 avril 2021 - Mémoire des Hommes
L’Institut National des Sciences appliquées de Rennes (INSA Rennes) est une école publique d’ingénieurs multi-spécialités en 5 ans (post-bac). Dans le cadre de sa spécialité Informatique, quatre étudiants ont réalisé, avec le site Mémoire des Hommes, un projet pédagogique traitant de l’annotation et l’exploitation des registres militaires de l’Ancien Régime.
Depuis deux années, ce sont six registres qui ont été totalement annotés (dont un 7ème qui est en cours), ce qui représente le traitement des informations d’environ 5500 soldats et 94 000 annotations. Ces données sont livrées à Mémoire des Hommes et donnent lieu à l’écriture d’articles dans des revues de cercles généalogiques (CGIV, CG50, CGMP, CG22...) incitant ainsi à la consultation des images sur le site Mémoire des Hommes.
Dans ce cadre, le site Mémoire des hommes a rencontré le responsable du projet Monsieur Ivan Leplumey, enseignant-chercheur à l’Institut national des sciences appliquées de Rennes (INSA Rennes) et chercheur de l’équipe Intuidoc de l’Institut de recherche en informatique et systèmes aléatoires (IRISA).
Interview
1. Pourquoi avoir choisi de mener un projet d’étude pratique avec le site Mémoire des hommes ?
L’équipe de recherche à laquelle j’appartiens en tant qu’enseignant-chercheur, travaille entre autres sur le traitement de documents anciens dans le but d’en extraire automatiquement des informations. Depuis plus d’une dizaine d’années, nous avons travaillé avec des Archives départementales voire nationales sur des projets traitant de documents anciens. De plus, la recherche généalogique est une véritable passion personnelle.
Le désir de travailler avec le site Mémoire des Hommes date d’il y a environ deux ans avec une première prise de contact qui s’est concrétisée par la mise à ma disposition en exclusivité d’une soixantaine d’images du second bataillon du régiment du Limousin sous l’Ancien Régime. Ces images m’ont servi à la définition d’un premier projet pour 4 étudiants en première année de spécialisation informatique à l’INSA Rennes sur la création d’un logiciel d’annotations de ce type de document. Dans cette première année, deux registres ont été intégralement annotés, celui évoqué précédemment et celui de la milice de Dinan, soit environ 2 000 soldats.
Cette année, dans la continuité du projet précédent, une seconde équipe s’est constituée pour approfondir le sujet, en travaillant cette fois-ci sur 5 registres, ceux des milices de Saint-Brieuc, de Saint-Lô, de Vire et du Mans, ainsi qu’un autre traitant du premier bataillon du régiment du Limousin en consolidation de la première année, soit 5 000 nouveaux soldats, correspondant à plus de 80 000 annotations.
2. Quels sont les grands jalons qui ont structuré les travaux menés et quelle était la durée l’étude ?
La première étape a consisté pour les étudiants à découvrir le domaine métier dans lequel ils allaient évoluer, c’est-à-dire le déchiffrage de documents du XVIIIe siècle. Ils ont donc dû chacun annoter intégralement plusieurs dizaines de soldats, et ainsi prendre conscience de la difficulté d’identifier un lieu ou un patronyme en raison d’une orthographe approximative du rédacteur du registre qui peut s’appuyer sur la transcription phonétique de l’information fournie par le soldat recruté.
La seconde étape a été d’identifier les deux axes privilégiés cette année et de se les répartir. Chaque axe permet avec un soucis pédagogique constant de montée en compétences des étudiants concernés, de découvrir et d’approfondir diverses techniques informatiques, de la base de données aux traitements d’images, des langages de programmation à ceux d’édition…
Le premier axe choisi correspond à créer des index numériques référençant les numéros de page des registres du site Mémoire des Hommes, index à destination de quelques associations généalogiques externes L’objectif de ces index est d’inciter des généalogistes à consulter le site de Mémoire des Hommes, en ayant découvert qu’un patronyme les intéressant se trouve à telle page d’un registre (cf figure 1).
Le second axe approfondi consiste à voir comment consolider l’orthographe des patronymes pour permettre à un généalogiste d’identifier qu’un patronyme l’intéresse même si celui-ci a été mal écrit. Pour travailler sur ce second axe, nous nous sommes appuyés sur le site Geneanet, site partenaire de Mémoire des Hommes, qui référence 7 milliards de personnes. Des logiciels ont été écrits pour consulter automatiquement le site Geneanet avec l’objectif de retrouver les soldats cités dans les registres de Mémoire des Hommes pour soit compléter les informations, soit pour corriger une graphie approximative du scripteur, voire du lecteur (cf figure 2). Cette partie est faite aussi en relation avec le site Geneanet.
L’étude dure sur toute l’année étudiante d’octobre à mai. Elle se termine par une soutenance terminale qui a lieu habituellement en mai.
3. Avez-vous dû vous appuyer sur d’autres partenariats pour réaliser l’étude ?
La richesse des partenariats pour cette seconde édition de l’étude pratique avec le site Mémoire des Hommes est très importante, et cela pour de multiples raisons.
La première est la signature du partenariat entre les sites Mémoires des Hommes et Geneanet, qui a modifié la configuration de livraison des annotations, livraison effectuée à l’un ou l’autre des deux sites suivant les numéros des registres. Ces deux sites ont mis en ligne des données provenant de l’étude effectuée à l’INSA Rennes.
Le premier registre annoté, cette année, fut le registre de 1758 de la Milice de Saint-Brieuc, déjà annoté collectivement par le site Geneanet, ce que nous ignorions. L’un des étudiants du projet habitant les Côtes-d’Armor, il lui était plus simple de déchiffrer les noms de lieux d’un régiment proche de chez lui. Il s’est alors posé la question de la mise en valeur de ce travail. Un contact a alors été pris avec le Cercle Généalogique des Côtes d’Armor qui s’est montré intéressé à participer à l’opération..
Les données concernant les Milices de Vire, de Saint-Lô et du Mans ont aussi donné lieu à leur partenariat, avec les deux cercles que sont le Cercle Généalogique de la Manche et le Cercle Généalogique Maine-et-Perche.
Le dernier partenariat engagé est celui avec le Cercle de Généalogie en Uzège et Gard et l’Association des Chercheurs et Généalogistes en Cévennes.. En s’appuyant sur des associations locales, on fiabilise le travail de décryptage des lieux, voire des patronymes. L’association y gagne un relevé pdf, et le site Mémoire des Hommes des annotations de meilleure qualité.
Lors de la première soutenance, fin janvier, les sites Mémoires des Hommes et Geneanet étaient présents par le biais de deux représentants, de même que le Cercle Généalogique de la Manche.
4. Selon vous, quels sont les apports, contraintes et responsabilités de ce type de collaboration pour les étudiants, pour vous ainsi que pour les partenaires ?
Le premier objectif du projet reste la montée en compétences des étudiants sur des sujets techniques ; dans notre cas, parmi les sujets abordés, le langage Python 3 a été utilisé en contexte de base de données NoSQL, avec des documents à générer au format LaTeX. Des techniques d’analyse de contenu de site ont été investiguées pour permettre le croisement des données et la consolidation des noms de lieux et de patronymes.
Les étudiants ont aussi eu à gérer une planification quasi-professionnelle en opérant des livraisons de documents aux partenaires, avec la prise en compte des remarques d’amélioration, conduisant à la version suivante.
La communication avec les partenaires a aussi été importante pour les étudiants, chacun d’eux s’est trouvé à de multiples moments avec la responsabilité d’un échange. Au final, cela constitue une préparation pour leur futur métier d’ingénieur à la relation avec les clients.
La responsabilité pour les étudiants de tenir des engagements vis-à-vis de partenaires pour ne créer aucune déception est aussi un élément important que cette étude peut apporter.
En conclusion, tous les partenaires à cette étude pratique sortiront bénéficiaires de cette collaboration, Mémoire des Hommes et Geneanet obtiendront des annotations permettant d’accéder plus facilement aux documents d’origine, les Associations et les Services d’Archives des documents concernant plus spécifiquement leurs régions géographiques de prédilection.
5. Les applications réalisées par le groupe d’étude, sont-elles été réutilisées à d’autres fins et/ou développées ?
Les logiciels écrits par les étudiants sont des applications de type « preuve de concept », ce qui permet de valider des idées. Ces applications leur permettent de découvrir divers aspects techniques et s’inscrivent dans leurs montées en compétences en informatique. Les logiciels de cette seconde année se sont appuyés sur les logiciels écrits l’an dernier pour approfondir certains points. Une vision à moyen terme ou à long terme de de ces preuves de concept n’a pas encore été envisagée.
En savoir plus sur les partenaires
Institut National des Sciences Appliquées de RennesGeneanetAncestramilAssociation des Chercheurs et Généalogistes des CévennesCentre Généalogique des Côtes d'ArmorCentre Généalogique de Maine et Perche
Centre Généalogique de la Manche
Centre Généalogique en Uzège et Gard
Archives Départementales des Côtes d'Armor
Initialement conçu comme un mémorial virtuel aux soldats morts pour la France lors des conflits contemporains, Mémoire des hommes devient progressivement, sans abandonner cette première dimension, le portail culturel du Ministère des armées. Il valorise les fonds d’archives et des bibliothèques du ministère ainsi que les collections de ses nombreux musées. Une première campagne d’indexation des fiches des Morts pour la France de la Première Guerre Mondiale s’est achevée en 2018. Une seconde campagne d’indexation collaborative concernant les registres de contrôles des hommes de troupes (1683-1793) est actuellement ouverte à tous. |
Publié le 21 avril 2021