Comment lire de l’écriture française à l’aide de l’IA
Il est possible d’apprendre beaucoup sur l’histoire française en lisant des livres ou en regardant des films documentaires. Ces types de sources sont parfaits pour avoir un aperçu d’un sujet. Toutefois, ce sont les sources primaires telles que les registres d’état civil, les manuscrits médiévaux ou les lettres personnelles qui permettent d’entrer dans le vif du sujet, nous donnant une perspective non filtrée de l’histoire et nous permettant de tirer nos propres conclusions sur les évènements qui se sont déroulés.
Cependant, de tels documents manuscrits ne sont pas toujours faciles à lire. Il est bien connu que l’écriture ancienne peut être difficile à déchiffrer dans n’importe quelle langue, et le français ne fait pas exception. Par ailleurs, de nombreux types d’écriture et styles d’écriture différents ont été utilisés en français à travers l’histoire, de la minuscule caroline médiévale à la cursive des temps modernes. Cela signifie qu’il faut comprendre non seulement la langue, mais aussi l’écriture.
Les sources primaires, telles que les lettres, sont essentielles pour percer les secrets de l’histoire. Image générée par l’IA
Autrefois, des compétences et des connaissances approfondies étaient nécessaires pour être capable de lire de tels documents. Aujourd’hui, grâce à la technologie de reconnaissance de l’écriture manuscrite par IA, il est possible de lire et de transcrire des documents manuscrits en français et dans de nombreuses autres langues sans être expert·e en écriture manuscrite historique. Ce post vous explique pourquoi il est si difficile de lire la cursive française et comment vous pouvez utiliser des plateformes d'intelligence artificielle telles que Transkribus pour surmonter ces défis.
Une brève histoire de l’écriture manuscrite française
L’un des principaux obstacles à la compréhension de l’écriture manuscrite ancienne française est le nombre d’écritures utilisées par des scribes français·es à travers l’histoire. L'écriture du français au XVe siècle diffère grandement de celle d'aujourd'hui. Votre document pourrait être écrit dans n’importe quelle écriture, y compris :
La minuscule caroline
Au Moyen Âge, l’écriture manuscrite française a été fortement influencée par la minuscule caroline développée sous la domination de Charlemagne. Cette écriture se caractérisait par des lettres claires et lisibles, avec quelques ornements.
L’italique
Au cours de la Renaissance,l’écriture manuscrite française a connu des changements, influencés par le mouvement humaniste. Des humanistes préconisaient un retour aux formes classiques, ce qui a donné lieu au développement de nouveaux styles, tels que l’italique, avec ses traits inclinés et fluides.
Un exemple typique d’écriture manuscrite française du XIXe siècle. Image du projet « Bulliot, Bibracte et moi » , via Transkribus
L’écriture secrétaire
Au XVIIe siècle, l’écriture secrétaire française, un style d’écriture utilisé pour des documents officiels et la correspondance, est devenue populaire. Cette écriture se distinguait par sa lisibilité et sa formalité, et a évolué en diverses formes au fil des siècles avec le développement de nouveaux instruments d'écriture.
L’écriture cursive
Au XIXe siècle et au début du XXe siècle, les Français ont développé un style d’écriture cursive spécifiquement à des fins éducatives. Cette « écriture cursive » mettait l’accent sur la fluidité et la connectivité entre les lettres. Elle est devenue l’écriture manuscrite standard enseignée dans les écoles françaises et demeure aujourd'hui le style d'écriture manuscrite français le plus utilisé.
Lire des documents manuscrits français à l’ancienne, sans recourir à la technologie
Avant le développement de technologies d’assistance telles que la reconnaissance de l’écriture manuscrite, lire des documents manuscrits dans n’importe quelle langue était un défi. Comme expliqué dans l'introduction, il ne suffisait pas seulement de connaître la langue, mais aussi l'écriture dans laquelle le document était rédigé.
Évidemment, il est possible d’apprendre à lire différentes écritures. Pour ce faire, il est nécessaire de commencer progressivement, en apprenant quelques lettres de l’écriture avant de déchiffrer des mots entiers, surtout des mots courants ou prévisibles comme « cordialement » dans une lettre ou « date de naissance » dans un acte de naissance.
Les registres publics sont une mine d’informations historiques. Image de Batz-sur-Mer Registre d’état civil, via Wikimedia Commons
L’étape finale consisterait à déchiffrer des phrases complètes, puis l’ensemble du contenu du document. De solides connaissances de la langue française seraient essentielles pour cela. Si vous comprenez 90 % des mots d’une phrase, les 10 % restants peuvent souvent être devinés grâce au contexte.
Comment la reconnaissance de l’écriture manuscrite facilite la lecture de documents
Grâce à la technologie de reconnaissance optique de caractères (OCR), les ordinateurs sont capables de lire du texte imprimé depuis quelques décennies. Cependant, en raison de la grande variété de styles d’écriture, ces systèmes d’OCR étaient peu utiles pour les textes manuscrits.
Il y a une dizaine d’années, un groupe de chercheur·euse·s, archivistes et historien·ne·s s’est réuni pour développer une nouvelle technologie de reconnaissance de l’écriture manuscrite destinée à la numérisation et à la transcription de documents manuscrits. L’automatisation de la transcription de grandes quantités de texte permet aux chercheur·euse·s d’extraire des données des sources beaucoup plus rapidement qu’en les transcrivant manuellement, ce qui rend la recherche plus efficace.
Le résultat de ce projet était une technologie appelée reconnaissance de l’écriture manuscrite, ou HTR (de l’anglais Handwritten Text Recognition). Les plateformes d’HTR telles que Transkribus, utilisent l’intelligence artificielle, l’apprentissage automatique et des réseaux neuronaux pour apprendre à lire des textes manuscrits comme le ferait un être humain.
Comment entraîner un modèle d’IA avec Transkribus
Transkribus peut accomplir cette tâche à l’aide de modèles d’IA. Chaque modèle fonctionne un peu comme un mode d’emploi qui explique à Transkribus comment lire un style d’écriture manuscrite spécifique. Par exemple, si vous souhaitez transcrire une collection de textes manuscrits français du XIXe siècle, vous importerez des images de toutes les pages, puis demanderez à la plateforme de les transcrire à l’aide du modèle d’écriture française du XIXe siècle. Transkribus utilisera les connaissances du modèle pour lire le texte sur les images et créer une transcription numérique.
Transkribus utilise l’intelligence artificielle pour transcrire automatiquement du texte manuscrit. Image du projet « Bulliot, Bibracte et moi », via Transkribus
Mais ce qui rend Transkribus vraiment unique, c’est qu’il vous permet de créer votre propre modèle de reconnaissance de l’écriture manuscrite et d’entraîner la plateforme à lire l’écriture spécifique de vos documents. Pour ce faire, il vous faut importer une certaine quantité de données d'entraînement, appelées « Ground Truth » (vérité de terrain), c’est-à-dire des documents préalablement transcrits avec une précision de 100 %. La plateforme utilise les informations contenues dans ces données pour créer un nouveau « mode d’emploi », ou modèle, qui pourra ensuite être utilisé pour transcrire le reste de vos documents. Même si cela peut prendre un peu de temps pour créer un modèle personnalisé à partir de zéro, à long terme, c’est presque toujours plus rapide que de transcrire tous les documents manuellement.
Vous trouverez plus d’informations sur l’entraînement d’un modèle d’IA dans notre centre d’aide.
La reconnaissance de l’écriture manuscrite est-elle précise ?
La précision reste un défi pour la reconnaissance de l’écriture manuscrite. L’écriture humaine est extrêmement difficile à comprendre pour les ordinateurs, et il n’existe pas encore de système capable de transcrire des documents sans commettre la moindre erreur.
Cependant, certains modèles s’en approchent. Pour chaque modèle, un « taux d’erreur de caractères » (CER) est calculé. Ce taux indique le pourcentage de caractères dans un texte qui seront probablement transcrits de façon incorrecte. Si un modèle a un CER de 100 %, il transcrira tous les caractères de manière incorrecte. S’il a un CER de 0 %, il produira une transcription parfaite, sans la moindre erreur.
En règle générale, les modèles avec un CER de 10 % ou moins produisent une transcription de qualité suffisante pour l’analyse ou de la recherche supplémentaire, ne nécessitant qu’un minimum de post-édition.
Les CERs des derniers modèles de Transkribus s’affichent dans la colonne tout à gauche. Image via Transkribus
Quels modèles d’IA sont disponibles pour les écritures manuscrites françaises ?
Plusieurs modèles d’IA « publics » sont disponibles pour chaque utilisateur·rice.
Le French General Model
Adapté à une large gamme de documents, ce modèle polyvalent a été entraîné sur différentes écritures manuscrites de différentes périodes et peut lire aussi bien l’écriture historique que moderne.
Vous pouvez tester le modèle ici.
French Handwriting 19th century
Connu officiellement sous le nom de « BBM Bulliot French C19th handwritten 2021 », ce modèle a été entraîné dans le cadre du projet de sciences citoyennes « Bulliot, Bibracte et moi ». Son jeu de données comprenait environ 147 000 mots et il a un CER de 8,2 %. Ce modèle est utile pour d’autres documents manuscrits français de la même période.
Vous pouvez tester le modèle ici.
Le Text Titan I
Ce modèle de type transformer est notre modèle de référence pour des documents manuscrits et imprimés dans de nombreuses langues, y compris le français. Il est donc idéal pour les collections contenant de nombreux types de documents et d’écritures différents.
Vous pouvez tester le modèle en vous connectant à votre compte sur app.transkribus.org.
Medieval Scripts M2.4
Ce grand modèle a été entraîné sur une grande variété de données du Moyen Âge et peut être utilisé non seulement pour les textes français, mais aussi pour les textes néerlandais, allemands, latins et flamands. Il a un CER de 7,1 %.
Vous pouvez tester le modèle ici.
Un document manuscrit français est transcrit à l’aide du modèle « French Handwriting 19th century ». Image du projet « Bulliot, Bibracte et moi », via Transkribus
Comment puis-je essayer Transkribus par moi-même ?
Vous souhaitez explorer si Transkribus est adapté à vos documents ?
- Rendez-vous sur app.transkribus.org et créez un compte.
- Importez des images de vos documents.
- Sélectionnez un modèle public parmi ceux décrits ci-dessus.
- Laissez Transkribus créer une transcription automatique.
Sinon, vous pouvez tester Transkribus dès maintenant en utilisant Transkribus AI.
Vignette créée par l’IA