Universitat Pompeu Fabra
Institut Universitari de Lingüística Aplicada
 
Inicio
Buscar
Contacto | Mapa Web

Observatori de Neologia / SEXTAN

SEXTAN: Sistema de Extracción Automática de Neología

Este sistema aplica la metodología del corpus técnico del IULA para detectar de forma automática, a partir de de un criterio lexicográfico, candidatos a neologismos en la prensa escrita. Actualmente se está implementando para el diario Avui y para el El País.

El contenido de los diarios se baja del servidor web del diario y luego de convertir las etiquetas HTML al formato de las etiquetas de los documentos del corpus técnico del IULA, se le aplica el programa de detección, que produce como resultado un archivo de todas las palabras que no se han encontrado en el diccionario del corpus. Para cada palabra se consigna también: el contexto, la sección y el autor del artículo en el que aparece.

El archivo de los candidatos a neologismos se carga al programa de verificación de los candidatos, donde un operador decide cuáles de los candidatos detectados son realmente neologismos y cuáles no. En el caso que el candidato sea validado, se completan los campos de la ficha: categoría gramatical, marca tipográfica, tipo de neologismo, nota y autor, ya que el resto de los campos se completan de forma automática. Posteriormente la ficha se incorpora a la base de datos del Observatori de Neologia.

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona