Assisted strategic monitoring on call for tender databases using natural language processing, text mining and deep learning

Oussama Ahmia

Résumé

The exponential growth of information available on the web, mainly in textual form, is producing increasing pressure on algorithms and technologies that aim at automatizing its processing. The need to develop advanced NLP (Natural Language Processing) methods to find, filter and analyze this data quickly and efficiently becomes all the more significant. In this thesis, we are interested in the processing of calls for tenders, whose content is textual, multilingual, unstructured or loosely structured, and very heterogeneous in both the form and the content; in particular, their content mixes both formalism and explanation of the intent to purchase. The collection of these documents over several years has made it possible to build a database that constitutes a mine of information in different fields (sectors of activity, competition, purchase price, and so on) which makes it possible to establish strategic monitoring and competitive intelligence across a wide range of activity fields, technologies or services. This thesis, carried out within the framework of a CIFRE contract with the OctopusMind company, is focused on developing a set of automated tools dedicated and optimized to assist call for tender databases processing, for the purpose of strategic intelligence monitoring. This set of tools is based on advanced information processing techniques and is designed to be integrated into the information system developed by the OctopusMind company. The main objectives of this thesis are centred on recommendation of calls for tenders for OctopusMind's clients, the classification of calls for tenders documents, as well as the extraction of relevant information with regard to a given set of specifications. Our contribution is divided into three chapters: The first chapter is about developing a partially comparable multilingual corpus, built from the European calls for tender published by TED (Tenders Electronic Daily). It contains more than 2 million documents translated into 24 languages published over the last 9 years (this resource is published as open data). The second chapter presents a study on the questions of words, sentences and documents embedding, likely to capture semantic features at different scales. We proposed two approaches: the first one is based on a combination between a word embedding (word2vec) and latent semantic analysis (LSA). The second one is based on a novel artificial neural network architecture based on two-level convolutional attention mechanisms. These embedding methods are evaluated on classification and text clustering tasks. The third chapter concerns the extraction of semantic relationships in calls for tenders, in particular, allowing to link buildings to areas, lots to budgets, and so on. The supervised approaches developed in this part of the thesis are essentially based on Conditionnal Random Fields. The end of the third chapter concerns the application aspect, in particular with the implementation of some solutions deployed within OctopusMind's software environment, including information extraction, a recommender system, as well as the combination of these different modules to solve some more complex problems, e.g. market analysis.

La croissance exponentielle de l’information disponible en ligne engendre une pression de plus en plus forte sur les algorithmes et technologies de traitement de cette information qui se présente principalement sous une forme textuelle. La nécessité de développer des méthodes avancées de TALN (traitement automatique du langage naturel) pour trouver, filtrer et analyser ces ressources de manière rapide et efficace devient ainsi d'autant plus prégnante. Dans le cadre de ma thèse, je me suis intéressé aux appels d'offres, dont le contenu est textuel, multilingue, peu ou pas structuré, et très hétérogène tant dans sa forme que sur le fond. En effet, le contenu des marchés mélange à la fois du formalisme et le détail de l’intention d’achat. La capitalisation de ces documents sur plusieurs années a permis de disposer d’une banque de données qui constitue une mine d'informations dans différents domaines (secteurs d’activités, concurrence, prix d’achats...) qui permet d’asseoir une veille stratégique et concurrentielle sur un large spectre de métiers, de technologies ou de services. Cette thèse, effectuée dans le cadre d’un contrat CIFRE avec la société OctopusMind, est centrée sur le développement d'un outillage informatique dédié et optimisé pour l'assistance à l'exploitation de la base d'appels d'offres, dans une finalité de veille stratégique. Cet outillage est basé sur les processus avancés de traitement de l'information et a pour vocation de s'intégrer dans le système d'information développé par l'entreprise. Les objectifs principaux de la thèse concernent la recommandation d’appels d'offres pour les clients, la classification des appels d'offres, ainsi que l’extraction d’informations pertinentes au regard d’une spécification de recherche donnée. Notre contribution se décline en trois chapitres : le premier concerne le développement d’une ressource multilingue partiellement comparable. Celle-ci est construite à partir des appels d’offres européens publiés par le TED (Tenders Electronic Daily). Elle contient plus de deux millions de documents traduits dans 24 langues publiées durant les 9 dernières années (cette ressource est une donnée ouverte). Le deuxième chapitre concerne une étude sur les questions de vectorisation de mots, phrases et documents susceptibles de capturer au mieux des éléments d’ordre sémantique selon différentes échelles. Nous avons proposé deux approches : la première est basée sur une combinaison entre un plongement de mot (word2vec) et une caractérisation de type sémantique latente (LSA). La deuxième est basée sur une architecture neuronale originale basée sur des réseaux d’attention convolutionnels à deux niveaux. Ces vectorisations sont exploitées à titre de validation sur des tâches de classification et de clustering de textes. Le troisième chapitre concerne l’extraction de relations sémantiques contenues les appels d’offres, en particulier, permettant de relier des bâtiments à des surfaces, des lots à des budgets, etc. Les approches supervisées développées sont ici plus traditionnelles et reposent sur des Conditionnal Random Fields. La fin de ce chapitre concerne la mise en production dans l'environnement logiciel d’OctopusMind des différentes solutions développées, notamment l’extraction d’informations, le système de recommandation, ainsi que la combinaison de ces différents modules pour résoudre des problèmes plus complexes (i.e. études de marchés).

Assisted strategic monitoring on call for tender databases using natural language processing, text mining and deep learning

Veille stratégique assistée sur des bases de données d'appels d'offres par traitement automatique de la langue naturelle, fouille de textes et apprentissage profond

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager