LA RESTRUCTURATION DES DOCUMENTS GRAPHIQUES DESTRUCTURÉS - Université de Bordeaux Accéder directement au contenu
Thèse Année : 2019

Restructuring unstructured graphical documents

LA RESTRUCTURATION DES DOCUMENTS GRAPHIQUES DESTRUCTURÉS

Résumé

This thesis deals with the restructuring of unstructured PDF documents containing graphical elements such as schematics, plans and drawings, with the aim of restructuring them. Using the KDD (Knowledge Discovery in Database) method for data restructuring, we introduce the (A)KDD (Antropocentric Knowledge Discovery in Database) method that we developed which is derived from the KDD method by adding an incremental aspect and an user-centered approach. We present, in particular, a technique based on on the bucket sort algorithm pattern in order to extract with efficiency graphic symbols contained in a PDF file. It is compared to the results obtained by Puglisi on strings. Then, we formulate the hypothesis : ” taking into account the chronological order present in the PDF files in the incremental process improves the restructuring of the documents ”. We illustrate the validity of this hypothesis on several examples. Finally, we show the efficiency of the process in the identification of the symbols at the same time as the equipotentials. The thesis concludes by showing the advances and the limits of the solution of the (A)KDD method and we propose some perspectives. The main contributions are : This is the first time that the chronological order hypothesis is taken as a basic principle for restructuring unstructured documents. The transformation of a 2D space, which is usually the space in which the diagrams, plans or drawings are described, into a 1D space that is materialized by a code string. This 2D transformation in 1D is possible and is only interesting thanks to the hypothesis described above.The adaptation of the KDD method to the search of graphical data whereas this method was initially database oriented in order to find the rules of data repetitions detection in these bases (detections of patterns inside a string, cleaning input data). The addition of the incremental aspect to the KDD method and the anthropocentric aspect (method (A)KDD) for the extraction of graphic data. The incremental aspect makes it possible to reduce the volume of the data to be processed (it is a permanent concern of this work) by replacing n graphical data by one structuring element of higher level. The human centered aspect allows a permanent control of the user and thus ensure that the restructuring is as required by the user.
Cette thèse traite de la restructuration des documents déstructurés de type PDF contenant des éléments graphiques tels que les schémas, les plans et les dessins, dans l’objectif de les restructurer. En nous appuyant sur la méthode KDD (Knowledge Discovery in Database) pour la restructuration des données, nous introduisons la méthode (A)KDD (Antropocentric Knowledge Discovery in Database) que nous avons développée. Elle est dérivée de la méthode KDD à laquelle nous avons ajouté l’aspect incrémental et l’aspect centré sur l’utilisateur. Nous présentons, en particulier, une technique fondée sur le principe du tri par paquets permettant d’extraire efficacement les symboles graphiques contenus dans un document PDF. Elle est comparée aux résultats de Puglisi sur les chaînes de caractères. Puis, nous formulons l’hypothèse selon laquelle la prise en compte de l’ordre chronologique présent dans les fichiers PDF et dans le processus incrémental, améliore la restructuration des documents. Nous montrons la validité de cette hypothèse sur un certain nombre d’exemples. Enfin, nous montrons l’efficacité du processus pour identifier les symboles en même temps que les équipotentielles. Nous terminons le mémoire en montrant les avancées et les limites de la solution de la méthode (A)KDD et nous proposons des perspectives. Les principales contributions sont : L’hypothèse de l’ordre chronologique prise, pour la première fois, comme principe de base pour restructurer des documents déstructurés. La transformation d’un espace 2D, qui est habituellement l’espace dans lequel sont décrits les schémas, les plans ou les dessins, en un espace 1D qui est matérialisé par une chaîne de codes. Cette transformation 2D en 1D n’est possible et n’a un intérêt que grâce à l’hypothèse décrite ci-dessus. L’adaptation de la méthode KDD à la fouille de données graphiques, alors que cette méthode était initialement orientée base de données, afin de trouver les règles d’apparition de répétitions des données dans ces bases (détections de motifs à l’intérieur d’une chaîne, nettoyage des données d’entrée). L’ajout de l’aspect incrémental à la méthode KDD et de l’aspect anthropocentré (méthode (A)KDD) pour la fouille des données graphiques. L’aspect incrémental permet de diminuer le volume des données à traiter (c’est une préoccupation permanente de ces travaux) en remplaçant ◆ données graphiques par un élément structurant de plus haut niveau. L’aspect centré utilisateur permet d’avoir un contrôle permanent de l’utilisateur et ainsi de s’assurer que la restructuration est conforme à ce que souhaite l’utilisateur.
Fichier principal
Vignette du fichier
JPL_These__V1 (3).pdf (31.88 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02439913 , version 1 (14-01-2020)

Identifiants

  • HAL Id : tel-02439913 , version 1

Citer

Jacques Péré-Laperne. LA RESTRUCTURATION DES DOCUMENTS GRAPHIQUES DESTRUCTURÉS. Traitement du texte et du document. Université de Bordeaux, 2019. Français. ⟨NNT : ⟩. ⟨tel-02439913⟩

Collections

U-BORDEAUX
74 Consultations
22 Téléchargements

Partager

Gmail Facebook X LinkedIn More