Estimation robuste et apprentissage aveugle de modèles pour la séparation de sources sonores

Simon Arberet

Résumé

Blind source separation in the underdetermined case is an ill-posed problem where it is usually assumed that sources are independent and sparse in the time-frequency domain. Separation is then done in two steps : the estimation of the mixture parameters, followed by the estimation of the sources. The assumptions made about the sources are not valid for all the time-frequency points, so that the approaches which naively address all the points identically and independently, are little robust in estimating the mixture parameters and the sources. In this thesis we exploit the local distribution of the mixture in the neighborhood of each time-frequency point, to : - Detect the time-frequency regions where only one source is active and to estimate the direction of the dominant source in these regions ; - Estimate the distribution of the sources in each time-frequency point using the knowledge on the mixture parameters. The proposed local approach is supported by a clustering algorithm called DEMIX, which robustly estimates the mixture parameters in the instantaneous and anechoic cases. On the other hand, the local spatial distribution of the sources can be used to learn Spectral-GMM which until now required a learning step with source examples. We show that this approach improve the source estimation performance of some dB in SDR.

La séparation de sources aveugle dans le cas sous-déterminé est un problème mal posé pour lequel on suppose que les sources sont indépendantes et parcimonieuses dans le domaine temps-fréquence. La séparation se fait alors en deux étapes : une étape d'estimation des paramètres du mélange, suivi d'une étape d'estimation des sources. Les hypothèses faites sur les sources ne sont cependant pas valides sur l'ensemble des points temps-fréquence, si bien que les approches qui traitent naïvement de l'ensemble des points de manière identiques et indépendantes, sont peu robustes pour estimer les paramètres du mélange et les sources. L'objet de cette thèse est d'exploiter la distribution locale du mélange dans les voisinages de chaque point temps-fréquence, afin de : - Détecter les régions temps-fréquence où une seule source est active et d'estimer la direction de la source dominante dans ces régions ; - Estimer la distribution des sources en chaque point temps-fréquence à l'aide de la connaissance sur les paramètres du mélange. L'approche locale que nous proposons est étayée par un algorithme de clustering appelé DEMIX, qui estime de façon robuste les paramètres du mélange dans les cas instantanés et anéchoïques. D'autre part, l'estimation locale de la distribution des sources peut être utilisée pour apprendre des MMG spectraux qui jusqu'à présent nécessitaient une étape d'apprentissage à partir d'exemples. Nous montrons que cette approche améliore l'estimation des sources de plusieurs dB en SDR.

Estimation robuste et apprentissage aveugle de modèles pour la séparation de sources sonores

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager