Réseau de neurones convolutif pour l'évaluation automatique de la prononciation - Université Toulouse III - Paul Sabatier - Toulouse INP Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Réseau de neurones convolutif pour l'évaluation automatique de la prononciation

Résumé

Dans cet article, nous comparons deux approches d’évaluation automatique de la prononciation de locuteurs japonophones apprenant le français. La première, l’algorithme standard appelé Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d’un alignement forcé et lors d’une reconnaissance de phones sans contrainte. La deuxième, nécessitant également un alignement préalable, fait appel à un réseau de neurones convolutif (CNN) comme classifieur binaire, avec comme entrée des trames de coefficients spectraux. Les deux approches sont évaluées sur deux phonèmes cibles /R/ et /v/ du français, particulièrement difficiles à prononcer pour des Japonophones. Les paramètres du GOP (seuils) et du CNN sont estimés sur un corpus de parole lue par des locuteurs natifs du français, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13,4% a été obtenu avec le CNN, avec une précision globale de 72,6%, sur un corpus d’évaluation enregistré par 23 locuteurs japonophones.
Fichier principal
Vignette du fichier
pellegrini_17163.pdf (380.37 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01474878 , version 1 (23-02-2017)

Identifiants

  • HAL Id : hal-01474878 , version 1
  • OATAO : 17163

Citer

Thomas Pellegrini, Lionel Fontan, Halima Sahraoui. Réseau de neurones convolutif pour l'évaluation automatique de la prononciation. Journées d'Etudes sur la Parole (JEP 2016), Jul 2016, Paris, France. pp.624-632. ⟨hal-01474878⟩
669 Consultations
1295 Téléchargements

Partager

Gmail Facebook X LinkedIn More