Structural Learning of Neural Networks

Pierre Wolinski

Thèse Année : 2020

Structural Learning of Neural Networks

Apprentissage de structure pour les réseaux de neurones

(1, 2)

1
2

Pierre Wolinski

Fonction : Auteur

Laboratoire de Recherche en Informatique

TAckling the Underspecified

Résumé

The structure of a neural network determines to a large extent its cost of training and use, as well as its ability to learn. These two aspects are usually in competition: the larger a neural network is, the better it will perform the task assigned to it, but the more it will require memory and computing time resources for training. Automating the search of efficient network structures -of reasonable size and performing well- is then a very studied question in this area. Within this context, neural networks with various structures are trained, which requires a new set of training hyperparameters for each new structure tested. The aim of the thesis is to address different aspects of this problem. The first contribution is a training method that operates within a large perimeter of network structures and tasks, without needing to adjust the learning rate. The second contribution is a network training and pruning technique, designed to be insensitive to the initial width of the network. The last contribution is mainly a theorem that makes possible to translate an empirical training penalty into a Bayesian prior, theoretically well founded. This work results from a search for properties that theoretically must be verified by training and pruning algorithms to be valid over a wide range of neural networks and objectives.

La structure d'un réseau de neurones détermine dans une large mesure son coût d'entraînement et d'utilisation, ainsi que sa capacité à apprendre. Ces deux aspects sont habituellement en compétition : plus un réseau de neurones est grand, mieux il remplira la tâche qui lui a été assignée, mais plus son entraînement nécessitera des ressources en mémoire et en temps de calcul. L'automatisation de la recherche des structures de réseaux efficaces - de taille raisonnable, mais performantes dans l'accomplissement de la tâche - est donc une question très étudiée dans ce domaine. Dans ce contexte, des réseaux de neurones aux structures variées doivent être entraînés, ce qui nécessite un nouveau jeu d'hyperparamètres d'entraînement à chaque nouvelle structure testée. L'objectif de la thèse est de traiter différents aspects de ce problème. La première contribution est une méthode d'entraînement de réseau qui fonctionne dans un vaste périmètre de structures de réseaux et de tâches à accomplir, sans nécessité de régler le taux d'apprentissage. La deuxième contribution est une technique d'entraînement et d'élagage de réseau, conçue pour être insensible à la largeur initiale de celui-ci. La dernière contribution est principalement un théorème qui permet de traduire une pénalité d'entraînement empirique en a priori bayésien, théoriquement bien fondé. Ce travail résulte d'une recherche des propriétés que doivent théoriquement vérifier les algorithmes d'entraînement et d'élagage pour être valables sur un vaste ensemble de réseaux de neurones et d'objectifs.

Mots clés

Deep learning Pruning Neural networks Bayes Hyperparameters

Apprentissage profond Élagage Réseaux de neurones Bayes Hyperparamètres

Domaines

Réseau de neurones [cs.NE] Intelligence artificielle [cs.AI] Apprentissage [cs.LG] Statistiques [math.ST]

Fichier principal

81525_WOLINSKI_2020_archivage.pdf (4.6 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02888604

Soumis le : vendredi 3 juillet 2020-10:26:17

Dernière modification le : vendredi 5 avril 2024-15:45:56

Archivage à long terme le : jeudi 24 septembre 2020-06:55:02

Dates et versions

tel-02888604 , version 1 (03-07-2020)

Identifiants

HAL Id : tel-02888604 , version 1

Citer

Pierre Wolinski. Structural Learning of Neural Networks. Neural and Evolutionary Computing [cs.NE]. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASS026⟩. ⟨tel-02888604⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA STAR UMR8623 CENTRALESUPELEC INRIA2 LRI-AO UNIV-PARIS-SACLAY LISN GS-ENGINEERING GS-COMPUTER-SCIENCE GS-LIFE-SCIENCES-HEALTH LISN-AO

424 Consultations

179 Téléchargements

Structural Learning of Neural Networks

Apprentissage de structure pour les réseaux de neurones

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager