Remarques : cas problématiques
Difficultés récurrentes relevées sur le corpus. Elles motivent le schéma d’annotation du layout (voir Fine-tuning des modèles) et guident la définition des règles d’annotation.
Vedette secondaire ou expression ?
Article PUITS : faut-il annoter « Le PUITS de celui qui vit & me voit »
et « PÉNÉTRER DANS LE PUITS DE DÉMOCRITE » comme Vedette-secondaire ?
Les expressions et locutions à l’intérieur d’un article sont composées dans la
même petite capitale que les vraies sous-entrées. Visuellement, rien ne les
distingue d’une Vedette-secondaire. À l’inverse, PULA, PULCHERIA et
PULEGIUM sont de vraies nouvelles entrées (Mot-vedette), et « PUL. » est
un Section-lexicale.
Conséquence : règle d’annotation à fixer — une expression citée dans le
corps n’est pas une vedette. Critère retenu : une Vedette-secondaire ouvre
une définition propre, l’expression reste rattachée au sens de la vedette
principale.
Opérations arithmétiques intégrées
Article SOUSTRACTION : exemples de soustractions posées, en blocs de chiffres dans la colonne de droite.
Les opérations posées (chiffres empilés et alignés) sont structurellement des
tableaux insérés dans le texte courant. L’OCR mélange les chiffres et perd
l’alignement vertical ; ces zones doivent être isolées en Tableau pour être
traitées à part (et non lues comme du texte linéaire).
On note aussi des Manicule (☞) en marge de SOUS-TIRAGE et
SOUS-TIRER, à détecter comme zones propres.
Initiale détachée de la vedette (p. 931)
Page 931 : l’initiale « R » de RENGIER et RENGORGER est rejetée
seule en début de ligne.
La capitale initiale est typographiquement détachée du reste du mot. La
segmentation la lit comme un élément isolé : la vedette est scindée en
« R » + « ENGIER », ce qui casse l’identification du Mot-vedette.
Piste : regrouper l’initiale isolée avec la suite de la vedette lors du post-traitement, ou annoter la zone vedette complète pour le fine-tuning layout.
Première lettre tronquée
La vedette SYMPHITUM est lue « YMPHITUM » : le « S » initial est perdu.
La première lettre de la vedette est coupée au bord de la zone (crop de colonne trop serré ou polygone de ligne démarrant trop à droite). Le mot-clé d’entrée devient erroné, ce qui est critique pour l’indexation.
Piste : élargir légèrement les boîtes de zones côté gauche, ou vérifier les marges de découpe de DocLayout-YOLO sur les vedettes en début de colonne.