Classification automatique du langage de données du service hospitalier des urgences

Binbin Xu; Loïck Bourdois; Cédric Gil-Jardine; Eric Tellier; Frantz Thiessard; Marta Avalos-Fernandez; Emmanuel Lagarde

Communication Dans Un Congrès Année : 2020

Classification automatique du langage de données du service hospitalier des urgences

(1, 2) , (1, 2) , (1, 2, 3) , (1, 2, 3) , (1, 2) , (1, 2, 4) , (1, 2)

1
2
3
4

Binbin Xu

Fonction : Auteur
PersonId : 747446
IdHAL : binbinxu

Université de Bordeaux

Bordeaux population health

Loïck Bourdois

Fonction : Auteur

Université de Bordeaux

Bordeaux population health

Cédric Gil-Jardine

Fonction : Auteur

Université de Bordeaux

Bordeaux population health

CHU de Bordeaux Pellegrin [Bordeaux]

Eric Tellier

Fonction : Auteur

Université de Bordeaux

Bordeaux population health

CHU de Bordeaux Pellegrin [Bordeaux]

Frantz Thiessard

Fonction : Auteur

Université de Bordeaux

Bordeaux population health

Marta Avalos-Fernandez

Fonction : Auteur
PersonId : 742122
IdHAL : mavalosf
ORCID : 0000-0002-5471-2615
IdRef : 153689293

Université de Bordeaux

Bordeaux population health

Statistics In System biology and Translational Medicine

Emmanuel Lagarde

Fonction : Auteur
PersonId : 1151175
ORCID : 0000-0001-8031-7400
IdRef : 110886410

Université de Bordeaux

Bordeaux population health

Résumé

Des modèles basés sur l'architecture Transformer qui intègrent une étape de pré-entrainement non supervisé à objectif prédictif, tels que le GPT-2 (Generative Pretrained Transformer 2) ont atteint récemment des succès remarquables. Nous avons adapté et mis en oeuvre un modèle de traitement automatique du langage naturel (NLP pour Natural Language Processing) permettant de déterminer si un texte libre clinique est de nature traumatique ou non. Nous avons comparé cette approche, nécessitant un nombre d'échantillons annotés réduit, à une approche entièrement supervisée. Nos résultats (basés sur l'AUC et le F1-score) montrent qu'il est possible d'adapter un modèle polyvalent tel que le GPT-2 pour créer un outil puissant de classification de notes de texte libre en français avec seulement un très faible nombre d'échantillons labélisés.

Mots clés

Neural Language Model pre-training Transformer GPT-2

Domaines

Intelligence artificielle [cs.AI] Réseau de neurones [cs.NE] Machine Learning [stat.ML] Méthodologie [stat.ME] Applications [stat.AP] Apprentissage [cs.LG] Santé publique et épidémiologie Automatique Statistiques [math.ST]

Fichier principal

POPULATIONHEALTH.pdf (74.7 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Marta Avalos : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-02615327

Soumis le : vendredi 22 mai 2020-15:12:03

Dernière modification le : vendredi 15 mars 2024-03:07:43

Dates et versions

hal-02615327 , version 1 (22-05-2020)

Identifiants

HAL Id : hal-02615327 , version 1

Citer

Binbin Xu, Loïck Bourdois, Cédric Gil-Jardine, Eric Tellier, Frantz Thiessard, et al.. Classification automatique du langage de données du service hospitalier des urgences. 3e Journée Dataquitaine : IA, RO et Data Science, Feb 2020, Talence, France. ⟨hal-02615327⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSERM INRIA INRIA-MECSCI INRIA2 U1219

312 Consultations

221 Téléchargements

Classification automatique du langage de données du service hospitalier des urgences

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager