Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole

Stéphane Huet

Résumé

A way to improve outputs produced by automatic speech recognition (ASR) systems is to integrate additional linguistic knowledge. Our research in this field focuses on two aspects: morpho-syntactic information and thematic adaptation. In the first part, we propose a new mode of integration of parts of speech in a post-processing stage of speech decoding. To do this, we tag N-best sentence hypothesis lists with a morphosyntactic tagger built to take into account the specificities of transcriptions. We reorder these lists by modifying the score computed by an ASR system at the sentence level to include morpho-syntactic information. Experiments done on French-speaking broadcast news (Ester corpus) exhibit a significant improvement of the word error rate. Besides, we establish the contribution of morpho-syntactic information to improve posterior based confidence measures. In the second more exploratory part, we are interested in thematically adapting the language model (LM) of an ASR system. We propose a scheme that enables us to specialize speech decoding in an unsupervised way. We first segment the studied document into thematically homogeneous sections. To this end, we develop a new probabilistic framework to integrate different modalities (lexical cohesion, acoustic clues, and linguistic markers) and show its relevance to improve segmentation. We then build adaptation corpora retrieved from the Web by using an innovative procedure. We finally modify the LM with these specic corpora and show that, on thematic sections that are manually selected, this method significantly improves the LM, even if the increase of the word error rate is slight.

Une des voies pour améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) consiste à employer davantage de connaissances linguistiques. Nous nous plaçons dans ce cadre en axant nos travaux sur deux aspects : les informations morpho-syntaxiques et l'adaptation thématique. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur morpho-syntaxique développé pour tenir compte des spé- cificités des transcriptions. Nous réordonnons ces listes en modifiant le score global employé par un système de RAP pour reconnaître un groupe de souffle, de manière à inclure les informations morpho-syntaxiques. Une diminution significative du taux d'erreur de mots est obtenue lors d'expériences menées sur des émissions d'information francophones (corpus Ester). Nous établissons en outre l'intérêt des informations morpho-syntaxiques pour améliorer des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML) d'un système de RAP. Nous proposons à cette fin une chaîne de traitements originale qui nous permet de spécialiser de manière ne et non supervisée le ML. Nous découpons tout d'abord une première transcription du document étudié en sections thématiquement homogènes. Pour cela, nous développons un nouveau cadre probabiliste pour prendre en compte dfférentes modalités (cohérence lexicale, indices acoustiques et marqueurs linguistiques) et montrons son intérêt pour améliorer la qualité de la segmentation. Nous construisons ensuite des corpus d'adaptation à partir du Web en utilisant une procédure novatrice. Nous modifions enfin le ML avec ces corpus spécifiques et montrons que, sur des sections thématiques sélectionnées manuellement, cette méthode permet d'améliorer significativement la modélisation du ML, même si le gain constaté au niveau de la qualité de la transcription est léger.

Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager