Fine-tuning des modèles
Trois fine-tunings ont été explorés pour adapter le pipeline à la typographie particulière du Dictionnaire de Trévoux (1743) : la reconnaissance de texte (CATMuS), la segmentation de lignes (blla) et la détection de mise en page (DocLayout-YOLO). Les annotations ont été réalisées sur un sous-ensemble du corpus (956 pages extraites à 300 DPI via PyMuPDF).
Reconnaissance — CATMuS-Print Large (eScriptorium)
Objectif : adapter le modèle de reconnaissance CATMuS-Print Large aux
caractères et ligatures propres au Trévoux.
Environnement : eScriptorium (annotation + entraînement Kraken).
Données : 12 pages transcrites ligne à ligne (vérité de terrain).
Modèle de base :
CATMuS-Print Large.Résultat : précision de validation ~98,5 % à l’epoch 12.
Note
La précision est mesurée au niveau de la ligne sur le jeu de validation d’eScriptorium. Un jeu de test indépendant reste à construire pour confirmer le gain en conditions réelles (CER / WER sur pages non vues).
Segmentation de lignes — blla (eScriptorium)
Objectif : améliorer la détection des lignes de base (baselines) par
fine-tuning du modèle de segmentation blla.
Environnement : eScriptorium.
Modèle produit :
blla-line-seg-ft35.mlmodel(5,05 Mo).
Le modèle fine-tuné n’a pas dépassé le blla par défaut. Comparaison des
configurations :
Configuration |
CER |
Remarque |
|---|---|---|
DocLayout-YOLO (colonnes) + |
~2,1 % |
Pipeline retenu (page |
|
~7,3 % |
Lignes correctes mais inférieur au défaut |
|
~57,5 % |
Doublon de lecture (texte lu deux fois) |
Note
Appliqué directement aux crops de colonnes produits par DocLayout-YOLO, le
modèle fine-tuné re-segmentait des zones déjà découpées, provoquant une
double lecture du texte (CER ~57,5 %). Sur l’image entière le problème
disparaît, mais le résultat reste en deçà du blla par défaut.
Décision : conserver la configuration par défaut DocLayout-YOLO (colonnes) + blla (lignes) pour la production. CER ~2,1 % sur pages propres, ~19–20 % sur les pages difficiles près de la reliure.
Mise en page — DocLayout-YOLO (Label Studio)
Objectif : fine-tuner DocLayout-YOLO pour la séparation des colonnes et la détection fine des zones logiques de l’article de dictionnaire.
Outil d’annotation : Label Studio.
Schéma d’annotation : défini avec l’encadrement, plus riche qu’une simple distinction texte/colonne.
Label |
Description |
|---|---|
|
Entrée principale (tête d’article) |
|
Sous-entrée / renvoi en petites capitales |
|
Corps de texte |
|
Continuation d’un paragraphe (changement de colonne / page) |
|
Citation ou exemple |
|
Marqueur alphabétique (ex. « PUL. ») |
|
Main pointée (☞) |
|
Initiale ornée |
|
Figure / gravure |
|
Titre de section |
|
En-têtes courants ( |
|
Contenu tabulaire ou numérique |
État : interface d’annotation Label Studio configurée ; annotation et entraînement en cours. Les cas ambigus rencontrés lors de l’annotation sont documentés dans Remarques : cas problématiques.