Fusion pour la séparation de sources audio

Xabier Jaureguiberry

Thèse Année : 2015

Fusion for audio source separation

Fusion pour la séparation de sources audio

(1)

Xabier Jaureguiberry

Fonction : Auteur

Laboratoire Traitement et Communication de l'Information

Résumé

Underdetermined blind source separation is a complex mathematical problem that can be satisfyingly resolved for some practical applications, providing that the right separation method has been selected and carefully tuned. In order to automate this selection process, we propose in this thesis to resort to the principle of fusion which has been widely used in the related field of classification yet is still marginally exploited in source separation. Fusion consists in combining several methods to solve a given problem instead of selecting a unique one. To do so, we introduce a general fusion framework in which a source estimate is expressed as a linear combination of estimates of this same source given by different separation algorithms, each source estimate being weighted by a fusion coefficient. For a given task, fusion coefficients can then be learned on a representative training dataset by minimizing a cost function related to the separation objective. To go further, we also propose two ways to adapt the fusion coefficients to the mixture to be separated. The first one expresses the fusion of several non-negative matrix factorization (NMF) models in a Bayesian fashion similar to Bayesian model averaging. The second one aims at learning time-varying fusion coefficients thanks to deep neural networks. All proposed methods have been evaluated on two distinct corpora. The first one is dedicated to speech enhancement while the other deals with singing voice extraction. Experimental results show that fusion always outperform simple selection in all considered cases, best results being obtained by adaptive time-varying fusion with neural networks.

La séparation aveugle de sources audio dans le cas sous-déterminé est un problème mathématique complexe dont il est aujourd'hui possible d'obtenir une solution satisfaisante, à condition de sélectionner la méthode la plus adaptée au problème posé et de savoir paramétrer celle-ci soigneusement. Afin d'automatiser cette étape de sélection déterminante, nous proposons dans cette thèse de recourir au principe de fusion. L'idée est simple : il s'agit, pour un problème donné, de sélectionner plusieurs méthodes de résolution plutôt qu'une seule et de les combiner afin d'en améliorer la solution. Pour cela, nous introduisons un cadre général de fusion qui consiste à formuler l'estimée d'une source comme la combinaison de plusieurs estimées de cette même source données par différents algorithmes de séparation, chaque estimée étant pondérée par un coefficient de fusion. Ces coefficients peuvent notamment être appris sur un ensemble d'apprentissage représentatif du problème posé par minimisation d'une fonction de coût liée à l'objectif de séparation. Pour aller plus loin, nous proposons également deux approches permettant d'adapter les coefficients de fusion au signal à séparer. La première formule la fusion dans un cadre bayésien, à la manière du moyennage bayésien de modèles. La deuxième exploite les réseaux de neurones profonds afin de déterminer des coefficients de fusion variant en temps. Toutes ces approches ont été évaluées sur deux corpus distincts : l'un dédié au rehaussement de la parole, l'autre dédié à l'extraction de voix chantée. Quelle que soit l'approche considérée, nos résultats montrent l'intérêt systématique de la fusion par rapport à la simple sélection, la fusion adaptative par réseau de neurones se révélant être la plus performante.

Mots clés

Audio source separation Model combination Deep neural networks Model selection Bayesian model averaging Variational Bayesian inference Non-negative matrix factorization (NMF) Speech enhancement

Rehaussement de la parole Combinaison de modèles Sélection de modèles Séparation de sources audio Factorisation en matrices non-négatives Inférence variationnelle bayésienne Moyennage bayésien de modèles Réseaux de neurones profonds

Domaines

Traitement du signal et de l'image [eess.SP] Réseau de neurones [cs.NE] Statistiques [math.ST] Machine Learning [stat.ML]

Fichier principal

TheseJaureguiberry.pdf (12.51 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://hal.science/tel-01189560

Soumis le : lundi 4 juillet 2016-18:08:07

Dernière modification le : mercredi 17 avril 2024-13:28:00

Dates et versions

tel-01189560 , version 1 (01-09-2015)

tel-01189560 , version 2 (04-07-2016)

Identifiants

HAL Id : tel-01189560 , version 2

Citer

Xabier Jaureguiberry. Fusion pour la séparation de sources audio. Traitement du signal et de l'image [eess.SP]. Télécom ParisTech, 2015. Français. ⟨NNT : 2015ENST0030⟩. ⟨tel-01189560v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM PASTEL CNRS STAR PARISTECH UNIV-PARIS-SACLAY LTCI

481 Consultations

425 Téléchargements

Fusion for audio source separation

Fusion pour la séparation de sources audio

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager