Presentación
English version

TEXTERM 2: Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada

La extracción, recuperación y gestión automática de información a partir de corpus textuales requiere múltiples herramientas de tratamiento del lenguaje natural. En las últimas décadas, diversos grupos de investigación han realizado estudios teóricos y aplicados y han elaborado recursos con esta finalidad. No obstante, para que el acceso a la información y, más concretamente, a la información de textos científico-técnicos, sea más afinado, se necesitan herramientas que permitan procesar automáticamente, pero también más inteligentemente, la información.

Este proyecto se propone continuar el trabajo en el procesamiento del lenguaje natural a partir de corpora científico-técnicos que desde 1994 el Grupo de investigación en Léxico, Terminología y Discurso Especializado (IULATERM) está llevando a cabo y para el cual ha contado con ayudas del Plan Nacional, del Plan de la Comunidad Autónoma y de la Unión Europea.

Los objetivos que se persiguen con este proyecto se dividen en teórico-aplicados y aplicado-tecnológicos. Más concretamente, en el terreno teórico orientado a la extracción automática de información, los objetivos propuestos son: a) el análisis de los distintos tipos de Unidades de Conocimiento Especializado (UCEs) pertinentes en la estructura de conocimiento de los textos y b) el análisis de las unidades que expresan la relación que, en los textos, se establecen entre las UCEs. En el terreno aplicado, con el fin de elaborar aplicaciones tecnológicas, los objetivos propuestos son: a) enriquecer los diccionarios de procesamiento con información morfológica no flexiva (estructura morfológica interna), sintáctica (estructura argumental) y semántica (características semánticas de los argumentos); b) desarrollar un segmentador de la estructura interna del léxico (chunker morfológico); c) desarrollar un segmentador sintáctico de segundo nivel (chunker sintáctico) y d) mejorar el sistema de representación automática de la estructura de conocimiento de un texto (mapas conceptuales).