Introduction
Les ouvrages présentant les opérations militaires souffrent généralement d'un même défaut : les cartes sont assez médiocres. L'échelle est absente, le réseau fluvial ou le réseau routier ne sont pas représentés, le relief est illisible, tous les villages mentionnés ne sont pas visibles, les unités ne sont pas placés... L'idée de ce petit site est de présenter la campagne de France par les cartes, afin d'aider à la compréhension de cette surprenante campagne où malgré la forte infériorité numérique de son armée, Napoléon parvint à infliger de nombreux revers aux coalisés avant finalement de devoir abdiquer à Fontainebleau.
Une particularité de ce site consiste dans l'acquisition et le traitement entièrement automatique des données. Ces dernières années, les modèles de deep learning, et notamment les LLM (large language model), ont permis de grands progrès dans le traitement de textes. Ce site est donc à voir comme une expérience pour comprendre les possibilités qu'offrent les modèles comme ChatGPT ou Gemini mais aussi leurs limites. Citons par exemple les points suivants :
- Les modèles sont capables de lire le texte présent sur des images ou des livres numérisés, y compris lorsque l'ouvrage est imprimé en style gothique comme celui de Plotho.
- Ils sont capables de comprendre et s'exprimer en plusieurs langues. Gemini n'a aucune difficulté pour comprendre du texte allemand et le traduire en français.
- Ils peuvent extraire de nombreuses informations de livres et les restituer dans un format texte structuré comme le json, permettant ensuite des traitements.
Comment sont acquises les données ?
Schématiquement, la démarche est la suivante :
- Les ouvrages sont convertis en format image
- Les pages sont passées à un LLM, en l'occurence Gemini 2.5 Pro, qui extrait les positions des unités, les dates, le camp des unités, les relations de commandement et de subordination entre les unités et les combats. Une unité peut être un général ou bien une entité comme un corps d'armée, une division... Une distinction est faite entre les positions qui sont des objectifs à court ou long terme (le général donne l'ordre de se porter sur telle ville) et celles qui sont réellement occupées par les unités.
- Via Open Street Map, on récupère les coordonnées de chaque lieu.
- On insère dans la base de données les unités et les lieux.
- On fusionne les unités qui ont le même nom.
- Chaque lieu peut posséder plusieurs homonymes : Bar peut aussi bien représenter Bar-sur-Aube que Bar-sur-Seine. Pour trouver l'homonyme le plus probable, on cherche pour chaque unité le chemin le plus court qu'elle peut parcourir dans la campagne.
- On contrôle le résultat de l'algorithme : si la moyenne journalière d'une unité est trop élevé, alors il y a une erreur de localisation.
- On détermine l'échelon des unités : armée, corps d'armée, division, brigade, régiment, bataillon, escadron...
- On détermine le camp des unités pour lesquelles le LLM n'est pas parvenu à le déduire
À quelles erreurs faut-il s'attendre ?
Comme l'algorithme est automatisé, il faut être conscient qu'il n'est pas parfait et que des erreurs ont pu se glisser. Voici quelques types d'erreurs déjà identifiés :
- Le LLM n'est pas infaillible pour lire les documents, surtout si le texte est un peu effacé. Il n'est pas forcément à l'aise avec les noms propres, donc il peut restituer le texte avec des erreurs d'orthographe.
- Un général peut être écrit de plusieurs manières différentes, que ce soit les différentes traductions des noms russes dans les ouvrages ou par des erreurs du LLM. Par exemple, le général Olsufiev est dénommé Olsujeff, Olsuwjew, Olsulieff, Olsufjew... L'algorithmes de fusion d'unités ne parvient pas toujours à identifier qu'il s'agit d'un unique général.
- En deux siècles, certains noms de villes ou de hameaux ont changé (Sainte-Croix est actuellement Sainte-Croix-en-Plaine par exemple), voire ont complètement disparu mais d'autres localités avec le même toponyme continuent d'exister. Une trentaine de villes ont été identifiées, mais il reste probablement des erreurs.
- Certains lieux sont trop vagues, notamment les cours d'eau les expressions comme "rive gauche" ou les noms de région (Savoie).
- Dans les échelons, il peut y avoir confusion entre un corps d'armée et un autre échelon. En effet, l'expression "un corps" est régulièrement utilisée pour désigner tout type de formation.
Quels sont les ouvrages utilisés ?
Les ouvrages utilisés sont les suivants :
Les cartes proviennent de l'Atlas de l'histoire du Consulat et de l'Empire de Thiers.
Et ensuite ?
On peut imaginer compléter ce site de plusieurs manières :
- Ajouter d'autres ouvrages sur 1814, voire ajouter d'autres campagnes
- Afficher sur la carte les lettres de l'époque. Il y a dans les ouvrages de nombreuses reproductions de lettres d'époques comme pièces justificatives. Les ajouter dans le site permettrait de les répertorier et de les retrouver plus facilement.
- Le LLM extrait des livres des informations sur les relations hiérarchiques entre généraux et unités. On pourrait en extraire un ordre de bataille. Une difficulté serait d'identifier les modifications qui ont lieu pendant une campagne militaire.
Si vous souhaitez obtenir des informations supplémentaires, suggérer de nouvelles fonctionnalités ou remonter des erreurs, n'hésitez pas à utiliser le formulaire de contact.