Conversion de la voix : Approches et applications

Imen Ben Othmane

Résumé

Voice conversion (VC) is an important problem in the field of audio signal processing. The goal of voice conversion is to transform the speech signal of a source speaker such that it sounds as if it had been uttered by a target speaker while preserving the same linguistic content of the original signal. Gaussian mixture model (GMM) based conversion is the most commonly used technique in VC, but is often sensitive to overfitting and oversmoothing. To address these issues, we propose a secondary classification by applying a K-means classification in each class obtained by a primary classification in order to obtain more precise local conversion functions. This proposal avoids the need for complex training algorithms because the estimated local mapping functions are determined at the same time. The second contribution of this thesis, includes a new methodology for designing the relationship between two sets of spectral envelopes. Our systems perform by : 1) cascading Deep Neural Networks with Gaussian Mixture Models for constructing DNN-GMM and GMM-DNN-GMM models in order to find an efficient global mapping relationship between the cepstral vectors of the two speakers ; 2) using a new spectral synthesis process with excitation and phase extracted from the target training space encoded as a KD-tree. Experimental results of the proposed methods exhibit a great improvement in intelligibility, quality and naturalness of the converted speech signals when compared with those obtained by a baseline conversion method. The extraction of excitation and phase from the target training space, allows the preservation of target speaker’s identity. Our last contribution of this thesis concerns the implementation of a novel speakingaid system for enhancing esophageal speech (ES). The method adopted in this thesis aims to improve the quality of esophageal speech using a combination of a voice conversion technique and a time dilation algorithm. In the proposed system, a Deep Neural Network (DNN) is used as a nonlinear mapping function for vocal tract vectors conversion. Then the converted frames are used to determine realistic excitation and phase vectors from the target training space using a frame selection algorithm. We demonstrate that that our proposed method provides considerable improvement in intelligibility and naturalness of the converted esophageal stimuli.

La conversion vocale est un problème important dans le domaine du traitement du signal audio. Le but de la conversion de voix est de transformer le signal de parole d’un locuteur source de telle sorte qu’il soit perçu comme s’il avait été prononcé par un locuteur cible tout en conservant le contenu linguistique du signal converti identique à celui du signal d’origine. La conversion basée sur un modèle de mélange gaussien (GMM) est la technique la plus couramment utilisée dans le domaine de la conversion vocale, mais elle est souvent sensible aux problèmes de sur-apprentissage et de lissage excessif. Pour résoudre ces problèmes, nous proposons une classification secondaire en appliquant une classification, par la technique des K-moyennes, dans chaque classe obtenue par une classification primaire afin d’obtenir des fonctions de conversion locales plus précises. Cette proposition évite le recours à des algorithmes d’apprentissage complexes car les fonctions de transformation locales sont déterminées en même temps. La deuxième contribution de cette thèse inclut une nouvelle méthodologie pour concevoir la relation entre deux ensembles d’enveloppes spectrales. Nos systèmes fonctionnent : 1) en cascadant des réseaux de neurones profonds avec un modèle de mélange gaussien pour construire des modèles DNN-GMM et GMM-DNN-GMM, ceci afin de trouver une fonction de transformation performante entre les vecteurs cepstraux des deux locuteurs ; 2) en utilisant un nouveau processus de synthèse spectrale mettant en oeuvre des prédicteurs de cepstres en cascade avec une excitation et une phase extraites de l’espace d’apprentissage cible codé sous la forme d’un arbre binaire KD-tree. Les résultats expérimentaux des méthodes proposées exhibent une nette amélioration de l’intelligibilité, de la qualité et du naturel des signaux de parole convertis par rapport aux résultats obtenus avec une méthode de conversion de base. L’extraction de l’excitation et de la phase de l’espace d’apprentissage cible permet de préserver l’identité du locuteur cible. Notre dernière contribution de cette thèse concerne l’implémentation d’un nouveau système d’aide à la parole pour améliorer la parole oesophagienne (ES). La méthode adoptée dans cette thèse vise à améliorer la qualité de la voix oesophagienne en combinant une technique de conversion vocale et un algorithme de dilatation temporelle. Dans le système proposé, un réseau de neurones profonds (DNN) est utilisé pour transformer de manière non linéaire les vecteurs cepstraux relatifs au conduit vocal. Ensuite, les trames converties obtenues sont utilisées pour déterminer les vecteurs d’excitation et de phase réalistes à partir de l’espace d’apprentissage cible préalablement codé sous la forme d’un arbre binaire. Nous montrons que la méthode proposée améliore considérablement l’intelligibilité et le naturel de la voix oesophagienne convertie.

Voice Conversion: Approaches and Applications

Conversion de la voix : Approches et applications

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager