Combinaison de mots et de syllabes pour transcrire la parole

Luiza Orosanu; Denis Jouvet

Communication Dans Un Congrès Année : 2014

Combining words and syllables for speech transcription

Combinaison de mots et de syllabes pour transcrire la parole

(1) , (1)

Luiza Orosanu

Fonction : Auteur
PersonId : 961242

Analysis, perception and recognition of speech

Denis Jouvet

Fonction : Auteur
PersonId : 15904
IdHAL : denis-jouvet
IdRef : 029418666

Analysis, perception and recognition of speech

Résumé

Combining words and syllables for speech transcription This paper analyzes the use of hybrid language models for automatic speech transcription. The goal is to later use such an approach as a support for helping communication with deaf people, and to run it on an embedded decoder on a portable device, which introduces constraints on the model size. The main linguistic units considered for this task are the words and the syllables. Various lexicon sizes are studied by setting thresholds on the word occurrence frequencies in the training data, the less frequent words being therefore syllabified. Using this kind of language model, the recognizer can output between 69% and 96% of the words (whereas the other words, will be represented by syllables). By setting different thresholds on the confidence measures associated to the recognized words, the most reliable word hypotheses can be identified, and they have correct recognition rates between 70% and 92%.

Cet article analyse l'intérêt de modèles de langage hybrides pour transcrire de la parole. L'objectif est d'utiliser une telle solution pour aider à la communication avec des personnes sourdes, et de la mettre en oeuvre sur un terminal portable, ce qui introduit des contraintes sur la taille du modèle. Les unités linguistiques considérées pour cette tâche sont les mots et les syllabes. Des lexiques de différentes tailles sont obtenus en variant le seuil de sélection associé aux fréquences d'occurrence des mots dans les données d'apprentissage, les mots les moins fréquents sont alors décomposés en syllabes. Ce type de modèle de langage peut reconnaître entre 69% et 96% des mots (le reste étant représenté par des syllabes). En ajustant le seuil sur les mesures de confiance associées aux mots reconnus, les hypothèses de mots les plus fiables peuvent être identifiées (à un taux de bonne reconnaissance variant entre 70% et 92%).

Mots clés

hybrid language model words syllables confidence measure deaf people out-of-vocabulary words

modèle de langage hybride mots syllabes mots hors vocabulaire mesure de confiance surdité.

Domaines

Traitement du signal et de l'image [eess.SP]

Fichier principal

Luiza -- articleJEP2014 - envoye 11 avril 2014.pdf (178.66 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Denis Jouvet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01080351

Soumis le : mercredi 5 novembre 2014-09:40:36

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : vendredi 6 février 2015-10:11:23

Dates et versions

hal-01080351 , version 1 (05-11-2014)

Identifiants

HAL Id : hal-01080351 , version 1

Citer

Luiza Orosanu, Denis Jouvet. Combinaison de mots et de syllabes pour transcrire la parole. XXXème édition des Journées d'Etudes sur la Parole, Jun 2014, Le Mans, France. ⟨hal-01080351⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA LORIA-NLPKD

209 Consultations

275 Téléchargements

Combining words and syllables for speech transcription

Combinaison de mots et de syllabes pour transcrire la parole

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager