Automatic Thesaurus Generation from Raw Text using Knowledge-Poor Techniques
Résumé
In addition to showing how lexical units are related within a eld, domain-speciic thesauri give an idea of what subjects are important to that eld and are thus useful at many points in an information system. The major impediment to creation of thesauri has been the cost of their manual creation. We present here a number of automatic techniques that jointly produce a rst draft of a thesaurus from any domain-deening collection of text. The techniques are knowledge-poor in that no domain knowledge is required for their use. We have successfully applied these techniques to over twenty corpora ranging from 1 to 6 megabytes. Results from the thesaurus produced from a collection of medical abstracts will also be presented here.
Domaines
Informatique et langage [cs.CL]
Fichier principal
Automatic Thesaurus Generation from Raw Text.pdf (164.52 Ko)
Télécharger le fichier
acl.bst (23.07 Ko)
Télécharger le fichier
aclap.sty (11.44 Ko)
Télécharger le fichier
my.bib (145.32 Ko)
Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)