Exploiting Semantic and Topic Context to Improve Recognition of Proper Names in Diachronic Audio Documents

Imran Sheikh

Résumé

The diachronic nature of broadcast news causes frequent variations in the linguisticcontent and vocabulary, leading to the problem of Out-Of-Vocabulary (OOV)words in automatic speech recognition. Most of the OOV words are found tobe proper names whereas proper names are important for automatic indexingof audio-video content as well as for obtaining reliable automatic transcriptions.New proper names missed by the speech recognition system can be recovered by adynamic vocabulary multi-pass recognition approach in which new proper namesare added to the speech recognition vocabulary based on the context of the spokencontent. Existing methods for vocabulary selection rely on web search engines andadaptation corpora and choose the new vocabulary words using term-documentfrequency and co-occurrence based features. Open vocabulary systems based onsub-word units are an interesting solution but they face the problem of producinga reliable text transcription. The goal of this thesis is to model the semantic andtopical context of new proper names in order to retrieve those which are relevantto the spoken content in the audio document. Training semantic/topic models is achallenging problem in this task because (a) several new proper names come witha low amount of data and (b) the context model should be robust to word errorsin the automatic transcription. Probabilistic topic models and word embeddingsfrom neural network models are explored for the task of retrieval of relevantproper names. A thorough evaluation of contextual representations from thesemodels is performed. It is argued that these representations, which are learnedin an unsupervised manner, are not the best for the given retrieval task. Neuralnetwork context models trained with an objective to maximise the retrieval performanceare proposed. A Neural Bag-of-Words (NBOW) model trained to learncontext vector representations at a document level is shown to outperform thegeneric representations. The proposed Neural Bag-of-Weighted-Words (NBOW2)model learns to assign a degree of importance to input words and has the abilityto capture task specic key-words. Experiments on automatic speech recognitionon French broadcast news videos demonstrate the eectiveness of the proposedmodels. Further evaluation of the NBOW2 model on standard text classicationtasks, including movie review sentiment classication and newsgroup topic classication, shows that it learns interesting information about the task and givesthe best classication accuracies among the bag-of-words models.

La nature diachronique des bulletins d'information provoque de fortes variationsdu contenu linguistique et du vocabulaire, conduisant au problème demots hors vocabulaire (Out-Of-Vocabulary OOV) dans le cadre de la reconnaissanceautomatique de la parole. La plupart des mots OOV se trouvent êtredes noms propres; ces noms propres sont importants pour l'indexation automatiquede ces contenus audio-vidéo, ainsi que pour obtenir des transcriptions fiables. Le but de cette these est de retrouver les noms propres manquants enutilisant le contexte an de les intégrer dans le lexique du système de reconnaissancepour effectuer une deuxièeme passe de reconnaissance. Les méthodesexistantes pour la sélection de nouveaux mots a ajouter au vocabulaire utilisentdes documents textuels récuperés sur le internet et choisissent les nouveaux motsde vocabulaire en utilisant des matrices terme-document ou des co-occurrencesde mots. Dans cette these nous allons modéliser le contexte sémantique etutiliser des informations thématiques contenus dans le document audio a transcrirean de récupérer les noms propres pertinents. Des modèles probabilistesde thème (topic model) et des projections dans un espace continu obtenues al'aide de réseaux de neurones (word embeddings) sont explorés pour la tâchede récuperation des noms propres pertinents. Une évaluation approfondie deces représentations contextuelles a été réalisée. Le contexte est estimé a l'aidede réseaux de neurones appris avec l'objectif de maximiser la récuperation desnoms propres pertinents. Un modèle de neurones (Neural Bag-of-Words, NBOW)entra^ne pour apprendre des représentations contextuelles au niveau du documentobtient de meilleures performances que les modèles classiques. Le nouveaumodèle que nous proposons (Bag-of-Weighted-Words, NBOW2) estime un degréd'importance pour chacun des mots du document et a la capacité de capturerdes mots importants spéciques. Des expériences de reconnaissance automatiquede bulletins d'information télévisés démontrent l'efficacité des modèles proposes.Une évaluation plus poussée du modèle NBOW2 sur les tâches de classicationde texte, d'analyse de critique de lm et de classication thématique de texteissus de groupe de discussion, démontre la capacité d'apprentissage du modèle etsurpasse les modèles utilisant des sac-de-mots (Bag-Of-Words, BOW).

Exploiting Semantic and Topic Context to Improve Recognition of Proper Names in Diachronic Audio Documents

Exploitation de Contexte Sémantique pour Améliorer la Reconnaissance des Noms Propres dans les Documents Audio Diachroniques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager