La restructuration des documents graphiques destructurés - Université de Bordeaux Accéder directement au contenu
Thèse Année : 2019

Restructure unstructured graphic data

La restructuration des documents graphiques destructurés

Résumé

This thesis deals with the restructuring of unstructured PDF documents containing graphical elements such as schematics, plans and drawings, with the aim of restructuring them. Using the KDD (Knowledge Discovery in Database) method for data restructuring, we introduce the (A) KDD (Antropocentric Knowledge Discovery in Database) method that we developed which is derived from the KDD method by adding an incremental aspect and an user-centered approach. We present, in particular, a technique based on on the bucket sort algorithm pattern in order to extract with efficiency graphic symbols contained in a PDF file. It is compared to the results obtained by Puglissi on strings. Then, we formulate the hypothesis:”taking into account the chronological order present in the PDF files in the incremental process improves the restructuring of the documents”. We illustrate the validity of this hypothesis on several examples. Finally, we show the efficiency of the process in the identification of the symbols at the same time as the equipotentials. The thesis concludes by showing the advances and the limits of the solution of the (A) KDD method and we propose some perspectives.
Cette thèse traite de la restructuration des documents déstructurés de type PDF contenant des éléments graphiques tels que les schémas, les plans et les dessins, dans l’objectif de les restructurer. En nous appuyant sur la méthode KDD (Knowledge Discovery in Database) pour la restructuration des données, nous introduisons la méthode (A)KDD (Antropocentric Knowledge Discovery in Database) que nous avons développé et qui est dérivée de la méthode KDD en ajoutant l’aspect incrémental et l’aspect centré sur l’utilisateur. Nous présentons, en particulier, une technique fondée sur le principe du tri par paquet pour extraire efficacement les symboles graphiques contenus dans un document PDF. Elle est comparée aux résultats de Puglissi sur les chaînes de caractères. Puis, nous formulons l’hypothèse selon laquelle la prise en compte de l’ordre chronologique présent dans les fichiers PDF dans le processus incrémental améliore la restructuration des documents. Nous montrons la validité de cette hypothèse sur un certain nombre d’exemples. Enfin, nous montrons l’efficacité du processus pour identifier les symboles en même temps que les équipotentielles. Le mémoire se conclut en montrant les avancées et les limites de la solution de la méthode (A)KDD et nous proposons des perspectives.
Fichier principal
Vignette du fichier
PERE-LAPERNE_JACQUES_2019.pdf (31.88 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02453457 , version 1 (23-01-2020)

Identifiants

  • HAL Id : tel-02453457 , version 1

Citer

Jacques Pere-Laperne. La restructuration des documents graphiques destructurés. Traitement du texte et du document. Université de Bordeaux, 2019. Français. ⟨NNT : 2019BORD0226⟩. ⟨tel-02453457⟩
174 Consultations
18 Téléchargements

Partager

Gmail Facebook X LinkedIn More