Approche hybride de segmentation de pages à base d’un descripteur de traits - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2014

Approche hybride de segmentation de pages à base d’un descripteur de traits

Résumé

Nous présentons une approche complète de segmentation de pages de documents numérisés permettant d’identifier et d’extraire les régions de texte, de lignes et de photos. L’approche est composée de deux étapes principales : la première étape consiste à détecter une éventuelle inclinaison afin d’ajuster l’image et ainsi diminuer les contraintes pour la segmentation. La deuxième étape se focalise sur une nouvelle méthode hybride pour la segmentation de pages basée sur les composantes connexes et sur l’analyse de régions. Nous décrivons d’abord notre nouvelle méthode de détection d’inclinaison. Ensuite, nous présentons notre descripteur de traits qui permet de détecter les candidats de texte et des lignes par la squelettisation de l’image du document binarisé. Un modèle de contours actifs est appliqué pour segmenter le reste de l’image en photos et arrière plan. Cette classification est vérifiée par l’étude de la variation photométrique de chacune des régions détectées. Enfin, les candidats de texte sont classifiés à l’aide de la technique du clustering du mean-shift en fonction de leurs tailles et nous présentons une approche adaptative d’analyse du profil de projection pour recueillir séparément les régions de texte horizontales et verticales. Cette méthode est appliquée pour la segmentation des images réelles des documents numérisés qui contiennent du texte, lignes et des régions de photos. Nous évaluons les performances de notre approche en la comparant avec des méthodes existantes sur des benchmarks connus.

Dates et versions

hal-01254452 , version 1 (12-01-2016)

Identifiants

Citer

Mehdi Felhi, Salvatore Tabbone, Maria V. Ortiz Segovia. Approche hybride de segmentation de pages à base d’un descripteur de traits. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2014, 17 (3), ⟨10.3166/dn.17.3.9-30⟩. ⟨hal-01254452⟩
128 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More