Toward universal speech synthesis : harnessing linguistic and stylistic embeddings for expertise-free and flexible systems

Antoine Perquin

Thèse Année : 2021

Toward universal speech synthesis : harnessing linguistic and stylistic embeddings for expertise-free and flexible systems

Vers une synthèse de parole universelle : Utilisation d’embeddings linguistiques et stylistiques pour des systèmes flexibles et sans expertise

(1, 2)

1
2

Antoine Perquin

Fonction : Auteur

Institut de Recherche en Informatique et Systèmes Aléatoires

Résumé

Text-to-speech synthesis (TTS) turns a written text into an audio speech signal. Many commercial systems rely on human linguistic expertise, while being limited to synthesize speech for a single speaker voice and speaking style. For speech synthesis to become universal in its usage and abilities, it must be easily customizable while being able to produce widely varied speech. The goal of this thesis is two-fold. 1) To study whether it is possible alleviate the need for human linguistic expertise to build or modify a TTS system. 2) To study whether it is possible to produce speech corresponding to different speakers, with their respective tone and regionalism accent. This manuscript presents three contributions. First, we show that the embedding property of neural networks can be used to lower the amount of expertise in unit selection speech synthesis. Second,we show that character embeddings can remove all linguistic expertise for end-to-end systems. Finally, we attempt to explicitly model speaker and accent characteristics in order to build a multi-speaker multi-accent end-to-end speech synthesis system.

La synthèse vocale est une technologie permettant de générer un échantillon de parole correspondant à la lecture d'un texte. La majorité des systèmes commerciaux repose sur une expertise linguistique, et sont limités à générer des échantillons avec une voix unique, dans un seul style de parole. Pour que la synthèse vocale devienne universelle, elle doit être facilement personnalisable et permettre de produire de nombreux styles de parole. Cette thèse à deux buts. 1)Étudier la possibilité de diminuer l'expertise linguistique nécessaire pour construire ou modifier un système de synthèse vocale. 2) Étudier la possibilité de synthétiser de la parole pour différents locuteurs, avec leur voix et accents régionaux respectifs. Ce manuscrit propose trois contributions.Premièrement, l'utilisation de la propriété d'embedding des réseaux de neurones pour diminuer l'expertise linguistique d'un système de synthèse par sélection d'unités. Deuxièmement, l'utilisation d' embeddings de caractères pour éliminer toute expertise linguistique d'un système de synthèse bout en bout. Enfin, la modélisation explicite des caractéristiques de locuteurs et d'accents à l'aide d' embeddings pour conditionner un modèle bout en bout et ainsi construire un système de synthèse vocale multi-locuteurs multi-accents.

Mots clés

Text-to-speech synthesis Neural networks Embeddings Unit selection Tacotron

Synthèse vocale Réseaux de neurones Embeddings Sélection d’unités Tacotron

Domaines

Informatique et langage [cs.CL]

Fichier principal

2021ISAR0004_PERQUIN_Antoine_TheseDEF.pdf (4.34 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03343065

Soumis le : lundi 13 septembre 2021-18:59:09

Dernière modification le : vendredi 24 mars 2023-14:53:22

Dates et versions

tel-03343065 , version 1 (13-09-2021)

Identifiants

HAL Id : tel-03343065 , version 1

Citer

Antoine Perquin. Toward universal speech synthesis : harnessing linguistic and stylistic embeddings for expertise-free and flexible systems. Computation and Language [cs.CL]. INSA de Rennes, 2021. English. ⟨NNT : 2021ISAR0004⟩. ⟨tel-03343065⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA STAR IRISA-INSA-R CENTRALESUPELEC UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

169 Consultations

104 Téléchargements

Toward universal speech synthesis : harnessing linguistic and stylistic embeddings for expertise-free and flexible systems

Vers une synthèse de parole universelle : Utilisation d’embeddings linguistiques et stylistiques pour des systèmes flexibles et sans expertise

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager