Presentación
English version

TEXTERM 3: Fundamentos, estrategias y herramientas para el procesamiento, extracción y representación de información especializada

La extracción, recuperación y gestión automática de información a partir de corpus textuales requiere de múltiples herramientas de tratamiento del lenguaje natural. En las últimas décadas, diversos grupos de investigación nacionales y extranjeros han realizado estudios teóricos y aplicados, y han elaborado recursos con esta finalidad. Algunos de estos recursos utilizan estrategias estadísticas para extraer información, pero otros se basan en información lingüística.

Dentro de esta aproximación lingüística, cuanto mejores sean las descripciones de datos en las que se base el sistema de base mejor será la información obtenida y más adecuada la forma de procesarla. Un sistema será además amigable y eficiente si se encuentra integrado en la misma plataforma que otras herramientas complementarias.

Este proyecto continúa la línea de trabajo sobre el procesamiento del lenguaje natural y extracción de información a partir de corpus científico-técnicos que está llevando a cabo desde 1994 el Grupo de investigación en Léxico, Terminología y Discurso Especializado (IULATERM) y para el cual ha contado con ayudas del Plan Nacional, del Plan de la Comunidad Autónoma y de la Unión Europea.

Los objetivos que se persiguen con este proyecto se dividen en teórico-descriptivos y aplicado-tecnológicos. Más concretamente, en el terreno teórico-descriptivo, orientado a la extracción automática de información, los objetivos propuestos son: a) profundizar en el análisis de los distintos tipos de unidades terminológicas y en las pistas contextuales que permiten identificarlas, b) refinar y ampliar el análisis de las unidades que expresan relaciones entre las unidades terminológicas, y c) determinar las características representativas y discriminatorias entre los textos de carácter especializado y los considerados no especializados. En el terreno aplicado, con el fin de elaborar aplicaciones tecnológicas partir de los resultados obtenidos en los anteriores proyectos y los recursos ya constituidos, los objetivos propuestos son: a) usar las descripciones lingüísticas y las clasificaciones semánticas para mejorar el sistema de extracción automática de terminología (YATE) y ampliarlo a nuevos ámbitos científico-técnicos b) desarrollar un sistema de búsqueda y clasificación automáticos de textos especializados a partir de Internet sobre la base de criterios de pertinencia temática, densidad especializada y fiabilidad del documento, con la finalidad de actualizar pertinentemente los corpora de los distintos ámbitos de especialidad y mejorar el sistema de representación automática de la estructura de conocimiento de un texto (construcción automática de ontologías y mapas conceptuales).

Cabe destacar que todos los estudios teóricos y aplicados estarán fuertemente interrelacionados, creándose un sinergia que ayudará a estudiar y resolver las cuestiones que se presenten en las aplicaciones correspondientes. A fin de enfatizar los aspectos aplicados de las tareas propuestas, se escoge como campos de estudio inicial los dominios de derecho y economía, aparte del ámbito de la medicina en el que ya se está trabajando en el proyecto en curso.