Objetivos


El tratamiento automático y la gestión de la información es uno de los puntos clave del funcionamiento científico y económico de la sociedad actual y la tecnología proporciona instrumentos para ello. Los centros de trabajo disponen hoy de grandes masas de documentación que necesitan gestionar y controlar de manera eficiente, de forma que ello suponga una inversión de tiempo rentable para el organismo. La gestión de toda la información de un centro de trabajo o gestión del conocimiento es progresivamente más eficaz gracias a la utilización de herramientas de tratamiento y gestión automáticos del lenguaje natural que cada vez son más inteligentes. Este aumento de inteligencia obedece, por un lado, a la utilización de estrategias de clasificación y acceso a la información cada vez mejores y más flexibles, y, por otro lado, a la disponibilidad de recursos asociados a estas estrategias.

El almacenamiento de información en lexicones es una de las estrategias que se han revelado como más eficientes en el tratamiento del lenguaje natural. Los léxicos son la herramienta de base en cualquier tratamiento de textos de base lingüística. Los programas de la Unión Europea Parole, Simple, ISLE, y, antes de ellos, proyectos como MULTEX, COLMEX, GENELEX, WordNet y EuroWordNet o SIGNUM, se han centrado precisamente en la elaboración de recursos lingüísticos bien informados tanto sintácticamente como semánticamente. Sin embargo, estos recursos, desarrollados para el español y el catalán a través de los grupos que han formado parte de los consorcios de cada programa, se han aplicado sobre un número limitado de unidades (por ejemplo, el diccionario de Parole contiene 20.149 lemas y Simple, 10.000). En Parole las unidades del léxico han recibido información mofológica y sintáctica; en el proyecto Simple, a unas 10.000 de ellas se les ha añadido algunas informaciones semánticas. Además, casi todas las unidades léxicas tratadas en estos proyectos son unidades del léxico denominado general y, en cambio, muy pocos proyectos tienen en consideración el léxico especializado, que es de suma importancia para procesar y gestionar el enorme volumen de documentación científica y técnica que se produce en la actualidad.

Para progresar en este área es preciso conocer bien los mecanismos discursivos del texto especializado y aún más específicamente las unidades lingüísticas que vehiculan estos mecanismos. Concretamente, el texto especializado considerado como estructura de conocimiento específico puede representarse esquemáticamente en forma de nudos de conocimiento y relaciones entre estos nudos. Una gran parte de esos nudos de conocimiento del discurso especializado están formados por nombres o sintagmas nominales. Si se trata de nombres, corresponden siempre a unidades de carácter terminológico en el ámbito especializado en cuestión. Si son sintagmas nominales, en ellos aparece siempre una unidad de carácter terminológico, ya sea el núcleo o su extensión. Las relaciones se expresan a través de muy diferentes recursos y cada uno de ellos con un alto índice de polisemia, lo que convierte en difícil y complejo el proceso de detección automática de estas relaciones. Que sea complejo, sin embargo, no supone que no se puedan encontrar patrones sintácticos, posiciones y marcadores que nos aproximen a su detección automática o semiautomática.

La finalidad general de este proyecto es doble: 1) Dar continuidad a la investigación básica y aplicada desarrrollada hasta ahora por el grupo en esta línea; 2) abordar investigación nueva, básica y aplicada, en el marco de los objetivos a largo alcance a los que el grupo espera llegar.

En coherencia con esta doble intención, los objetivos específicos para los que solicitamos este proyecto se distribuyen en dos campos:

  1. La investigación básica, orientada al procesamiento y extracción automáticos de la información.
  2. La investigación aplicada y el desarrollo de aplicaciones en forma de prototipos de tecnología lingüística, evaluados internamente en cuanto a su funcionamiento y utilidad, pero no desarrollados a nivel comercial.

En el terreno de la investigación básica, y dentro del modelo para las Unidades de Conocimiento Especializado (UCEs) descrito en Cabré 1999, 2000, 2001 y 2002, nos proponemos continuar en la exploración de la estructura de conocimiento de los textos especializados a fin de detectar nuevas pistas de extracción automática de UCEs de carácter morfológico, léxico y fraseológico. Nos centraremos fundamentalmente en:

  1. El análisis de las UCEs que constituyen el núcleo de los nudos cognitivos de la estructura de un texto (nombres y sintagmas nominales).
  2. El análisis de las unidades lingüísticas que expresan la relación entre estos nudos (básicamente verbos).
Esta investigación sobre las unidades que vehiculan nudos y relaciones debe llevarnos a la representación automática de la estructura de conocimiento de un documento.

En el terreno aplicado, nos proponemos cuatro objetivos específicos:

  1. Enriquecer los diccionarios de procesamiento (el diccionario del castellano de 103.000 lemas y 775.000 formas entradas, y el de catalán de 96.000 entradas) con información morfológica (morfología léxica) e información semántica. La primera, a través del uso de un segmentador morfológico; la segunda, usando jerarquías léxicas como EuroWordNet, tesauros ya compilados y la Ontología del Genoma creada en el IULA con el gestor Ontoterm.
  2. Desarrollar el segmentador morfológico de la estructura interna (bases léxicas y afijos) de las entradas léxicas (chunker morfológico)
  3. Continuar el desarrollo del analizador sintáctico con la introducción de información semántica: marcaje argumental y etiquetaje de grupos semánticos (chunker sintáctico).
  4. Mejorar el sistema de representación automática de estructuras conceptuales (nudos y relaciones conceptuales) no jerárquicas y tridimensionales, iniciado en el anterior proyecto concedido por el MCYT (BFF-2000-0841).
La conjunción de toda esta información va a desembocar en el diseño de un nuevo diccionario de procesamiento que reutilizará toda la información acumulada en los proyectos desde 1994.