Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada
Pàgina inicial Versió imprimible Cercar informació Informació de contacte


Observatori de Neologia / SEXTAN

SEXTAN: Sistema d'Extracció Automàtica de Neologia

Aquest sistema aplica la metodologia del corpus tècnic de l'IULA per detectar de forma automàtica, a partir d'un criteri lexicogràfic, candidats a neologismes en la premsa escrita. Actualment està implementat per al diari Avui i per a El País.

El contingut dels diaris es baixa des del servidor web del diari i després de convertir les marques HTML al fomat de les etiquetes dels documents del corpus tècnic, se li aplica el programa de detecció, que produeix com a resultat un arxiu amb totes les paraules que no han estat trobades al diccionari del corpus. Per a cada paraula es guarda també: el context, la secció i l'autor de l'article en el qual apareix.

L'arxiu de candidats a neologismes es carrega al programa de verificació dels candidats, on un operador decideix quins dels candidats detectats són realment neologismes i quins no. En el cas en què el candidat és validat, es completen els camps de la fitxa: categoria gramatical, marca tipogràfica, tipus de neologisme, nota i autor, la resta de camps s'omplen de forma automàtica. Posteriorment la fitxa s'incorpora a la base de dades de l'Observatori de Neologia.

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona