Automatic Thesaurus Generation from Raw Text using Knowledge-Poor Techniques - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 1993

Automatic Thesaurus Generation from Raw Text using Knowledge-Poor Techniques

Gregory Grefenstette

Résumé

In addition to showing how lexical units are related within a eld, domain-speciic thesauri give an idea of what subjects are important to that eld and are thus useful at many points in an information system. The major impediment to creation of thesauri has been the cost of their manual creation. We present here a number of automatic techniques that jointly produce a rst draft of a thesaurus from any domain-deening collection of text. The techniques are knowledge-poor in that no domain knowledge is required for their use. We have successfully applied these techniques to over twenty corpora ranging from 1 to 6 megabytes. Results from the thesaurus produced from a collection of medical abstracts will also be presented here.
Fichier principal
Vignette du fichier
Automatic Thesaurus Generation from Raw Text.pdf (164.52 Ko) Télécharger le fichier
acl.bst (23.07 Ko) Télécharger le fichier
aclap.sty (11.44 Ko) Télécharger le fichier
my.bib (145.32 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01154133 , version 1 (06-01-2016)

Identifiants

  • HAL Id : hal-01154133 , version 1

Citer

Gregory Grefenstette. Automatic Thesaurus Generation from Raw Text using Knowledge-Poor Techniques. MAKING SENSE OF WORDS. NINTH ANNUAL CONFERENCE OF THE UW CENTRE FOR THE NEW OED AND TEXT RESEARCH, Oxford University Press, Sep 1993, Oxford, United Kingdom. ⟨hal-01154133⟩

Collections

INRIA INRIA2
396 Consultations
375 Téléchargements

Partager

Gmail Facebook X LinkedIn More