Català | English| Euskara

Introducción y antecedentes

El uso de ontologías o jerarquías léxicas, que ofrecen representación de información semántica de unidades léxicas (clases semánticas y relaciones léxicas), se presenta como una estrategia robusta en Recuperación de Información (expansión de consultas, sistemas de búsqueda de respuesta, minería de datos), en Gestión del Conocimiento (indización de documentos), Traducción Automática (representación léxica de interlingua) y en Extracción Automática de Terminología (relevancia temática de los candidatos).

Consideramos pertinente abordar el enriquecimiento de un modelo de ontología, EuroWordNet (convertida por su amplio uso en lingüística computacional casi en un estándar), en ámbitos especializados, por el interés y oportunidad de desarrollo de nuevas aplicaciones en estos ámbitos especializados. Y proponemos hacerlo desde la extracción automática de terminología, en sendas adaptaciones de temática y de lengua de la herramienta YATE (Vivaldi 2001), porque disponer de un extractor de terminología eficiente y de amplio alcance nos ayudará en la constitución y actualización de recursos terminológicos básicos también para el resto de campos indicados (RI, TA, GC).

Además, los resultados de la investigación básica sobre unidades terminológicas en contexto de proyectos anteriores vinculados (TEXTERM2 y RICOTERM2) nos muestran que la información semántica y la combinatoria léxica son las más pertinentes para la extracción automática en ciertos ámbitos especializados, sobre todo en los discursos de humanidades y ciencias sociales, por cuanto no presentan singularidades de carácter morfológico ni sintáctico, al estar más cerca del discurso no especializado o común. Por otro lado, abordar la adaptación de una herramienta como YATE a una lengua tipológicamente distinta, como el vasco, nos obliga a priorizar la estrategia semántica por encima de otras estrategias lingüísticas del extractor, sobre todo por el consenso existente de conocimientos especializados entre lenguas distintas (y en derecho un marco jurídico compartido). Estos elementos nos sirven de hipótesis de partida para justificar la necesaria ampliación de un recurso como EWN hacia ámbitos especializados.

En proyectos anteriores, La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES-PB-96-0293) TEXTERM. Textos especializados y terminología: selección y recuperación automática de la información (BFF-2000-0841), y TEXTERM2. Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada ( BFF2003-02111 ), se ha comprobado empíricamente la adecuación de la propuesta teórica por la que se pueden describir y explicar las unidades con valor terminológico como unidades del léxico de una lengua natural y basar su especificidad en la selección de características semánticas que se activan en el uso discursivo. En los textos pueden encontrarse pistas lingüísticas de los usos especializados. El conocimiento especializado de un texto puede formularse en términos de una red de nudos de conocimiento (representados por unidades léxicas de carácter terminológico o combinaciones sintácticas en las que aparece por lo menos una de estas unidades). Las pistas de las unidades que se usan con carácter especializado pueden ser de distinta naturaleza: uso de unidades morfológicas y léxicas específicas, frecuencia de uso de unidades morfológicas y léxicas con relación a su uso en discurso no especializado, combinaciones sintácticas específicas, cambio de valor sintácticos de algunas piezas léxicas. Son las condiciones pragmáticas las que activan la selección de unas u otras características de las unidades léxicas. Las unidades léxicas con valor terminológico pues son activaciones de posibles características contenidas en un lexicón. Estos resultados han sido publicados en distintos artículos y capítulos de libro del grupo IULATERM.

En la vertiente aplicada de la investigación, los diversos desarrollos de la herramienta YATE (Vivaldi 2001) son fruto de los proyectos anteriores del grupo y de algunas tesis doctorales vinculadas a estos proyectos :

En TEXTERM (2000-2003) se diseñó la herramienta, que combina información morfológica (formantes grecolatinos), sintáctica (patrones estructurales) y semántica (etiquetas procedentes de EuroWordnet) con estrategias estadísticas, y se construyó la primera versión para el castellano y la medicina (tesis doctoral J. Vivaldi 2002) y las adaptaciones para medicina (catalán) y genoma humano (catalán y castellano).

Bajo el paraguas de TEXTERM2 (2003-2006) se ha realizado una primera adaptación para el derecho y en catalán (tesis doctoral O. Domènech 2006) y en RICOTERM-2 (2004-2007) se han realizado las adaptaciones para la economía en catalán y en castellano (tesis doctoral en curso A. Joan) y se ha publicado un manual de adaptación de YATE a lengua y dominio especializado (Joan, Lorente, Domènech, Estopà y Vivaldi 2006 en prensa).

La adaptación de YATE a lengua y dominio mediante el enriquecimiento de EuroWordNet se concentra en la revisión manual de los synsets de EWN para la identificación de relaciones léxicas propias de ámbitos especializados para el establecimiento de las llamadas Fronteras de Dominio (FD) en el código de YATE. Las limitaciones de EWN en temáticas especializadas obliga en muchas ocasiones a introducir nuevos synsets para poder establecer las FD correspondientes en YATE. La evaluación constante de la herramienta, después de la introducción de nuevas FD, permite introducir nuevas mejoras paulatinamente hasta alcanzar los resultados deseables de cobertura y precisión.

Objetivos generales

Estos antecedentes inmediatos nos han dado la experiencia suficiente (y una metodología de trabajo eficiente) para poder abordar en un período de tres años las siguientes tareas:

El detalle de estas tareas se puede simplificar en los siguientes objetivos precisos :

Objetivos de cada subproyecto y mecanismos de coordinación

Subproyecto 1 (UPF):

Subproyecto 2 (EHU):

Mecanismos de coordinación:

Fecha de actualización: 12-12-2007