Script optimization for TTS voice corpus design in audio-book generation

Meysam Shamsi

Thèse Année : 2020

Script optimization for TTS voice corpus design in audio-book generation

Optimisation de script pour la conception de corpus vocaux de TTS dans la génération de livres audio

(1, 2)

1
2

Meysam Shamsi

Fonction : Auteur
PersonId : 750650
IdHAL : meysam-shamsi
ORCID : 0000-0002-4104-9826

Institut de Recherche en Informatique et Systèmes Aléatoires

Expressiveness in Human Centered Data/Media

Résumé

The objective of this thesis is the generation of a high quality expressive audio-book, using natural and synthetic speech signals with a minimal recording cost. The strategy consists on selecting a part of the book and recording its reading to build a voice corpus. This voice is then used for synthesizing the rest of the book using a Text-to-Speech system. Several strategies are successively proposed: a posterior approach using voice reduction methods, a neural network based (CNN) auto-encoder focusing on linguistic information, and then the selection of the shortest utterances. These different approaches are objectively and perceptually evaluated. Finally, the quality of audio-book mixing natural and synthetic speech signals is evaluated. The evaluations show the mixture of synthetic and natural signals is preferred than fully synthetic signals produced by a unit selection based TTS system.

L'objectif de cette thèse est la génération d'un livre audio expressif, vocalisé à l'aide de signaux de parole synthétiques et naturels, avec une haute qualité et un coût d'enregistrement minimal. La stratégie consiste à sélectionner une partie du livre dont les signaux enregistrés issus de sa lecture forment une voix. Cette voix est utilisée pour vocaliser le reste du livre à l'aide d'un système de synthèse de parole. Plusieurs stratégies sont proposées successivement : une stratégie a posteriori reposant sur des techniques de réduction de corpus, l'utilisation d'un auto-encodeur basé sur un réseau neuronal (CNN) se concentrant sur les informations linguistiques, et enfin la sélection des phrases les plus courtes. Ces différentes approches sont évaluées de manière objective et subjective. Enfin, la qualité d'un livre audio mixant signaux de parole naturels et synthétiques est étudiée. Les évaluations montrent que le mélange de signaux synthétiques et naturels est préférable à une vocalisation entièrement synthétique à l'aide d'un système TTS par sélection d'unités. Ce résultat est contraire à ce qui a été rapporté dans la littérature.

Mots clés

Script selection Expressive audio-Book generation Voice reduction Synthetic speech quality evaluation Hybrid TTS systems Linguistic and acoustic embeddings

Sélection de script Génération de livres audio expressifs Réduction de voix Évaluation de la qualité de voix de synthèse Systèmes de synthèse de parole hybride Plongements linguistiques et acoustiques

Domaines

Informatique et langage [cs.CL]

Fichier principal

SHAMSI_Meysam.pdf (2.71 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03270968

Soumis le : vendredi 25 juin 2021-11:32:09

Dernière modification le : mardi 3 octobre 2023-09:49:26

Archivage à long terme le : dimanche 26 septembre 2021-21:54:16

Dates et versions

tel-03270968 , version 1 (25-06-2021)

Identifiants

HAL Id : tel-03270968 , version 1

Citer

Meysam Shamsi. Script optimization for TTS voice corpus design in audio-book generation. Computation and Language [cs.CL]. Université Rennes 1, 2020. English. ⟨NNT : 2020REN1S107⟩. ⟨tel-03270968⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES ENSSAT IRISA STAR CENTRALESUPELEC UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

146 Consultations

523 Téléchargements

Script optimization for TTS voice corpus design in audio-book generation

Optimisation de script pour la conception de corpus vocaux de TTS dans la génération de livres audio

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager