|
SEXTAN: Sistema d'Extracció Automàtica
de Neologia
Aquest sistema aplica la metodologia del corpus
tècnic de l'IULA per detectar de forma automàtica, a partir
d'un criteri lexicogràfic, candidats a neologismes en la premsa
escrita. Actualment està implementat per al diari Avui i per a El
País.
El contingut dels diaris es baixa des del servidor web del
diari i després de convertir les marques HTML al fomat de
les etiquetes dels documents del corpus tècnic, se li aplica el programa
de detecció, que produeix com a resultat un arxiu amb totes
les paraules que no han estat trobades al diccionari del corpus.
Per a cada paraula es guarda també: el context, la secció
i l'autor de l'article en el qual apareix.
L'arxiu de candidats a neologismes es carrega al programa
de verificació dels candidats, on un operador decideix quins
dels candidats detectats són realment neologismes i quins
no. En el cas en què el candidat és validat, es completen
els camps de la fitxa: categoria
gramatical, marca tipogràfica, tipus de neologisme, nota i
autor, la resta de camps s'omplen de forma automàtica. Posteriorment
la fitxa s'incorpora a la base de dades de l'Observatori de
Neologia.
|