On the parameter learning for Perturb-and-MAP models - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2019

On the parameter learning for Perturb-and-MAP models

Sur l'apprentissage des paramètres pour les modèles Perturb-and-MAP

Résumé

Probabilistic graphical models encode hidden dependencies between random variables for data modelling. Parameter estimation is a crucial part of handling such probabilistic models. These very general models have been used in plenty of fields such as computer vision, signal processing, natural language processing. We mostly focused on log-supermodular models, which is a specific part of exponential family distributions, where the potential function is assumed to be the negative of a submodular function. This property is handy for maximum a posteriori and parameter learning estimations. Despite the apparent restriction of the model, is covers a broad part of exponential families, since there are plenty of functions that are submodular, e.g., graph cuts, entropy and others. Probabilistic treatment is challenging for most models, however we were able to tackle some of the challenges at least approximately. In this manuscript, we exploit perturb-and-MAP ideas for partition function approximation and efficient parameter learning. Moreover, the problem can be also interpreted as a structure learning task, where each estimated parameter or weight represents the importance of the corresponding term. We propose a way of approximate parameter estimation and inference for models where exact learning and inference is intractable in general case due to the partition function calculation complexity. The first part of the thesis is dedicated to theoretical guarantees. Given the log-supermodular models, we take advantage of the efficient minimization property related to submodularity. Introducing and comparing two existing upper bounds of the partition function, we are able to demonstrate their relation by proving a theoretical result. We introduce an approach for missing data as a natural subroutine of probabilistic modelling. It appears that we can apply a stochastic technique over the proposed perturb-and-map approximation approach and still maintain convergence while make it faster in practice. The second main contribution is an efficient and scalable generalization of the parameter learning approach. In this section we develop new algorithms to perform parameter estimation for various loss functions, different levels of supervision and we also work on the scalability. In particular, working with mostly graph cuts, we were able to incorporate various acceleration techniques. As a third contribution we deal with the general problem of learning continuous signals. We focus on the sparse graphical models representations. We consider common sparsity-inducing regularizers as negative log-densities for the prior distribution. The proposed denoising techniques do not require choosing any precise regularizer in advance. To perform sparse representation learning, the signal processing community often uses symmetric losses such as `1, but we propose to parameterize the loss and learn the weight of each loss component from the data. This is feasible via an approach which is similar to what we proposed in the previous sections. For all aspects of the parameter estimation mentioned above we performed computational experiments to illustrate the idea or compare with existing benchmarks, and demonstrate its performance in practice.
Les modèles graphiques probabilistes codent les dépendances entre les variables aléatoires et l’estimation des paramètres fait partie du traitement des modèles probabilistes. Ces modèles ont été utilisés dans des domaines tels que la vision par ordinateur, le traitement du signal, le traitement du langage naturel. Nous nous sommes concentrés sur les modèles log-supermodulaires, qui font partie des distributions familiales exponentielles, où la fonction potentielle est la fonction négative d’une fonction sous-modulaire. Malgré la restriction du modèle, est couvert une grande partie des familles exponentielles, car il y a beaucoup de fonctions qui sont sous-modulaires, par exemple, les coupes graphiques, entropie et autres. Le traitement probabiliste est habituellement difficile, mais nous avons été en mesure de relever certains des défis au moins approximativement. Nous exploitons les idées perturb-and-MAP pour l’approximation des fonctions de partition et l’apprentissage efficace des paramètres. Nous proposons une méthode d’estimation et d’inférence approximative des paramètres pour les modèles où l’apprentissage et l’inférence exacts sont difficiles à gérer dans le cas général. La première partie de la thèse est consacrée aux garanties théoriques. Étant donné les modèles logsupermodulaires, nous tirons parti de la propriété de minimisation efficace liée à la sous-modularité. En introduisant et en comparant deux limites supérieures existantes de la fonction de partition, nous démontrons leur relation en prouvant un résultat théorique. Nous introduisons une approche pour les données manquantes comme sous-routine naturelle de la modélisation probabiliste. Il semble que nous puissions appliquer une technique stochastique à l’approche d’approximation par perturbation et carte proposée tout en maintenant la convergence tout en la rendant plus rapide dans la pratique. Une autre contribution est une généralisation efficace et évolutive de l’approche d’apprentissage des paramètres. Nous développons des algorithmes pour effectuer l’estimation des paramètres pour diverses fonctions de perte, différents niveaux de supervision et nous travaillons sur l’évolutivité. Nous incorporons également certaines techniques d’accélération. Comme troisième contribution, nous abordons le problème général de l’apprentissage des signaux continus. Nous nous concentrons sur les représentations de modèles graphiques clairsemés et nous considérons les régularisateurs à faible densité comme des densités logarithmiques négatives pour la distribution antérieure. Les techniques de débruitage proposées ne nécessitent pas le choix d’un redresseur précis à l’avance. Pour effectuer un apprentissage de représentation clairsemée, la communauté du traitement du signal utilise souvent des pertes symétriques telles que `1, mais nous proposons de paramétrer la perte et d’apprendre le poids de chaque composante de perte à partir des données. Nous avons effectué des expériences informatiques pour illustrer l’idée générale ou la comparer à des repères existants, et démontrer sa performance dans la pratique.
Fichier principal
Vignette du fichier
Shpakova-2019-These.pdf (1.29 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03413229 , version 1 (08-01-2020)
tel-03413229 , version 2 (03-11-2021)

Identifiants

  • HAL Id : tel-03413229 , version 2

Citer

Tatiana Shpakova. On the parameter learning for Perturb-and-MAP models. Machine Learning [cs.LG]. Université Paris sciences et lettres, 2019. English. ⟨NNT : 2019PSLEE077⟩. ⟨tel-03413229v2⟩
152 Consultations
268 Téléchargements

Partager

Gmail Facebook X LinkedIn More