Fine-tuning des modèles

Trois fine-tunings ont été explorés pour adapter le pipeline à la typographie particulière du Dictionnaire de Trévoux (1743) : la reconnaissance de texte (CATMuS), la segmentation de lignes (blla) et la détection de mise en page (DocLayout-YOLO). Les annotations ont été réalisées sur un sous-ensemble du corpus (956 pages extraites à 300 DPI via PyMuPDF).

Reconnaissance — CATMuS-Print Large (eScriptorium)

Objectif : adapter le modèle de reconnaissance CATMuS-Print Large aux caractères et ligatures propres au Trévoux.

  • Environnement : eScriptorium (annotation + entraînement Kraken).

  • Données : 12 pages transcrites ligne à ligne (vérité de terrain).

  • Modèle de base : CATMuS-Print Large.

  • Résultat : précision de validation ~98,5 % à l’epoch 12.

Note

La précision est mesurée au niveau de la ligne sur le jeu de validation d’eScriptorium. Un jeu de test indépendant reste à construire pour confirmer le gain en conditions réelles (CER / WER sur pages non vues).

Segmentation de lignes — blla (eScriptorium)

Objectif : améliorer la détection des lignes de base (baselines) par fine-tuning du modèle de segmentation blla.

  • Environnement : eScriptorium.

  • Modèle produit : blla-line-seg-ft35.mlmodel (5,05 Mo).

Le modèle fine-tuné n’a pas dépassé le blla par défaut. Comparaison des configurations :

Configuration

CER

Remarque

DocLayout-YOLO (colonnes) + blla par défaut

~2,1 %

Pipeline retenu (page page_0948)

blla fine-tuné, image entière

~7,3 %

Lignes correctes mais inférieur au défaut

blla fine-tuné, sur crops de colonnes

~57,5 %

Doublon de lecture (texte lu deux fois)

Note

Appliqué directement aux crops de colonnes produits par DocLayout-YOLO, le modèle fine-tuné re-segmentait des zones déjà découpées, provoquant une double lecture du texte (CER ~57,5 %). Sur l’image entière le problème disparaît, mais le résultat reste en deçà du blla par défaut.

Décision : conserver la configuration par défaut DocLayout-YOLO (colonnes) + blla (lignes) pour la production. CER ~2,1 % sur pages propres, ~19–20 % sur les pages difficiles près de la reliure.

Mise en page — DocLayout-YOLO (Label Studio)

Objectif : fine-tuner DocLayout-YOLO pour la séparation des colonnes et la détection fine des zones logiques de l’article de dictionnaire.

  • Outil d’annotation : Label Studio.

  • Schéma d’annotation : défini avec l’encadrement, plus riche qu’une simple distinction texte/colonne.

Label

Description

Mot-vedette

Entrée principale (tête d’article)

Vedette-secondaire

Sous-entrée / renvoi en petites capitales

Paragraphe

Corps de texte

Paragraphe-suite

Continuation d’un paragraphe (changement de colonne / page)

Citation

Citation ou exemple

Section-lexicale

Marqueur alphabétique (ex. « PUL. »)

Manicule

Main pointée (☞)

Lettrine

Initiale ornée

Illustration

Figure / gravure

Titre

Titre de section

Autre-paratexte

En-têtes courants (PEC, ASC, SYM), numéros de page

Tableau

Contenu tabulaire ou numérique

État : interface d’annotation Label Studio configurée ; annotation et entraînement en cours. Les cas ambigus rencontrés lors de l’annotation sont documentés dans Remarques : cas problématiques.