Processus alpha-stables pour le traitement du signal

Mathieu Fontaine

Résumé

The scientific topic of sound source separation (SSS) aims at decomposing audio signals into their constitutive components, e.g. separate singing voice from background music or from background noise. In the case of very old and degraded historical recordings, SSS strongly extends classical denoising methods by being able to account for complex signal or noise patterns and achieve efficient separation where traditional approaches fail. It is classic in signal processing to model the observed signal as the sum of desired signals. If we adopt a probabilistic model, it is preferable that law of the additive processes is stable by summation. The Gaussian process notoriously satisfies this condition. It admits useful statistical operators as the covariance and the mean. The existence of those moments allows to provide a statistical model for SSS. However, Gaussian process has difficulty to deviate from its mean. This drawback limits signal dynamics and may cause unstable inference methods. On the contrary, non-Gaussian α−stable processes are stable under addition, and permit the modeling of signals with considerable dynamics. For the last few decades, α-stable theory have raised mathematical challenges and have already been shown to be effective in filtering applications. This class of processes enjoys outstanding properties, not available in the Gaussian case. A major asset for signal processing is the unique spatial representation of a multivariate α−stable vector, controlled by a so-called spectral measure and a deterministic vector.The spectral measure provides information on the global energy coming from all space directions while the vector localizes the centroid of the probability density function. It shows its usefulness for the socalled independent component analysis (ICA) topic and the SSS. However, those models are only linear instantaneous mixture and do not consider the frequency domain. This thesis introduces several α-stables models, with the aim of extending them in several directions. First, we propose an extension of single-channel α−stable filtering theory to a multichannel one. In particular, a novel spatial representation forα−stable vectors is proposed. Secondly, we develop α−stable models for denoising where each component could admit a different α. This hybrid model provides a rigorous explanation of some heuristic Wiener filters outlined in the 1980s. We also describe how the α−stable theory yields a new method for audio source localization. We use the spectral measure resulting from the spatial representation of α−stable vectors. In practice, it leads to determine whether a source is active at a specific location. Our work consisted in investigating the α-stable theory for signal processing and developing several models for a wide range of applications. The models introduced in this thesis could also be extend to more signal processing tasks. We could use our mutivariate α−stable models to dereverberation or SSS. Moreover, the localization algorithm is implementable for room geometry estimation

Le sujet scientifique de la séparation de sources sonores (SSS) vise à décomposer les signaux audio en leurs éléments constituants, par exemple en séparant la voix du chanteur principal de son accompagnement musical ou du bruit de fond. Dans le cas d’enregistrements historiques très anciens et très dégradés, la SSS étend de manière significative les méthodes classiques de débruitage en permettant de prendre en compte des motifs complexes de signal et de bruit et de réaliser efficacement la séparation, là où les approches traditionnelles sont tenues en échec. En traitement du signal audio, le signal observé est souvent supposé être égal à la somme des signaux que nous souhaitons obtenir. Dans le cadre d’une modélisation probabiliste, il est alors primordial que les processus stochastiques préservent leur loi par sommation. Le processus le plus employé et vérifiant cette stabilité est le processus gaussien. Comparé aux autres processus α−stables vérifiant la même stabilité, les processus gaussiens ont la particularité d’admettre des outils statistiques facilement interprétables comme la moyenne et la covariance. L’existence de ces moments permet d’esquisser des méthodes statistiques en SSS et plus généralement, en traitement du signal. La faiblesse de ces processus réside néanmoins dans l’incapacité à s’écarter trop loin de leurs moyennes. Cela limite la dynamique des signaux modélisables et peut provoquer des instabilités dans les méthodes d’inférence considérées. Les processus α−stables non-gaussiens soulèvent des défis mathématiques et ont déjà démontré leur efficacité dans des applications de filtrage et en terme algorithmique. En dépit de non-existence d’une forme analytique des densités de probabilités, les processus α−stables jouissent de résultats non valables dans le cas gaussien. Par exemple, un vecteur α−stable non-gaussien admet une représentation spatiale unique. En résumé, le comportement d’une distribution multivariée α−stable est contrôlé par deux opérateurs. Une mesure dite «spectrale» informant sur l’énergie globale venant de chaque direction de l’espace et un vecteur localisant le centroïde de sa densité de probabilité. Cette représentation spatiale a notamment montré son efficacité dans le cas de la SSS pour la célèbre analyse en composantes indépendantes (ACI). Les modèles pour cette ACI α−stable ne sont cependant proposés que dans le cas de mélanges linéaires instantanés. Par conséquent, l’information dans le domaine fréquentiel est omise pour ce type de mélange. Ce mémoire de thèse introduit différents modèles α−stables d’un point de vue théorique et les développe dans plusieurs directions. Nous proposons notamment une extension de la théorie de filtrage α−stable monocanal au cas multicanal. En particulier, une nouvelle représentation spatiale pour les vecteurs α−stables est adoptée. Nous développons en outre un modèle de débruitage où le bruit et la parole découlent de distributions α−stables mais ayant un exposant caractéristique α différent. La valeur d’α permet de contrôler la stationnarité de chaque source. Grâce à ce modèle hybride, nous avons également déduit une explication rigoureuse sur des filtrages de Wiener heuristiques esquissés dans les années 80. Une autre partie de ce manuscrit décrit en outre comment la théorie α−stable permet de fournir une méthode pour la localisation de sources sonores. Pour ce faire, nous employons la représentation spatiale d’un vecteur α−stable non-gaussien afin d’exploiter sa mesure spectrale. En pratique, elle nous permet d’en déduire si une source est active à un endroit précis de l’espace. Au final, nos travaux ont consisté à étudier la théorie α−stable pour le traitement du signal. Nous avons abouti à de nombreux modèles pour un large panel d’applications. En dehors des quelques applications que nous avons déjà considérées, nous pouvons étendre les modèles multicanaux α−stables à la déréverbération ou à la SSS. Quant au modèle sur la localisation des sources sonores, il pourrait être employé afin de déterminer la géométrie d’une salle.

Alpha-stable processes for signal processing

Processus alpha-stables pour le traitement du signal

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager