Statistical learning with high-cardinality string categorical variables - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2019

Statistical learning with high-cardinality string categorical variables

Apprentissage statistique à partir de variables catégorielles non-uniformisées

Résumé

Tabular data often contain columns with categorical variables, usually considered as non-numerical entries with a fixed and limited number of unique elements or categories. As many statistical learning algorithms require numerical representations of features, an encoding step is necessary to transform categorical entries into feature vectors, using for instance one-hot encoding. This and other similar strategies work well, in terms of prediction performance and interpretability, in standard statistical analysis when the number of categories is small. However, non-curated data give rise to string categorical variables with a very high cardinality and redundancy: the string entries share semantic and/or morphological information, and several entries can reflect the same entity. Without any data cleaning or feature engineering step, common encoding methods break down, as they tend to lose information in their vectorial representation. Also, they can create high-dimensional feature vectors, which prevent their usage in large scale settings. In this work, we study a series of categorical encodings that remove the need for preprocessing steps on high-cardinality string categorical variables. An ideal encoder should be: scalable to many categories; interpretable to end users; and capture the morphological information contained in the string entries. Experiments on real and simulated data show that the methods we propose improve supervised learning, are adapted to large-scale settings, and, in some cases, create feature vectors that are easily interpretable. Hence, they can be applied in Automated Machine Learning (AutoML) pipelines in the original string entries without any human intervention.
Les données de type tabulaire contiennent souvent des variables catégorielles, considérées comme des entrées non numériques avec un nombre fixe et limité d'éléments uniques, appelés catégories. De nombreux algorithmes d’apprentissage statistique nécessitent une représentation numérique des variables catégorielles. Une étape d'encodage est donc nécessaire pour transformer ces entrées en vecteurs. Pour cela, plusieurs stratégies existent, dont la plus courante est celle de l'encodage one-hot, qui fonctionne bien dans le cadre de l'analyse statistique classique (en termes de puissance de prédiction et d'interprétation) lorsque le nombre de catégories reste faible. Cependant, les données catégorielles non-uniformisées présentent le risque d'avoir une grande cardinalité et des redondances. En effet, les entrées peuvent partager des informations sémantiques et/ou morphologiques, et par conséquent, plusieurs entrées peuvent refléter la même entité. Sans une étape de nettoyage ou d'agrégation au préalable, les méthodes d'encodage courantes peuvent perdre en efficacité du fait d'une représentation vectorielle erronée. En outre, le risque d'obtenir des vecteurs de très grandes dimensions croit avec la quantité de données, ce qui empêche leur utilisation dans l'analyse de données volumineuses. Dans ce document, nous étudions une série de méthodes d’encodage qui permettent de travailler directement sur des variables catégorielles à grande cardinalité, sans qu'il soit nécessaire de les traiter en amont. A l'aide d'expériences menées sur des données réelles et simulées, nous démontrons que les méthodes proposées dans le cadre de cette thèse améliorent l'apprentissage supervisé et ce, en autre, du fait de leur capacité à capturer correctement l'information morphologique des entrées. Même avec des données volumineuses, ces méthodes s'avèrent être performantes, et dans certains cas, elles génèrent des vecteurs facilement interprétables. Par conséquent, nos méthodes peuvent être appliquées à l'apprentissage statistique automatique (AutoML) sans aucune intervention humaine.
Fichier principal
Vignette du fichier
84377_CERDA_REYES_2019_archivage.pdf (5.26 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02614322 , version 1 (20-05-2020)

Identifiants

  • HAL Id : tel-02614322 , version 1

Citer

Patricio Cerda Reyes. Statistical learning with high-cardinality string categorical variables. Machine Learning [cs.LG]. Université Paris-Saclay, 2019. English. ⟨NNT : 2019SACLS470⟩. ⟨tel-02614322⟩
351 Consultations
861 Téléchargements

Partager

Gmail Facebook X LinkedIn More