Objetivos

El tratamiento automático de la información es uno de los puntos clave del funcionamiento científico y económico de la sociedad actual. La tecnología proporciona instrumentos para la gestión y el tratamiento automáticos de la información. Los centros de trabajo disponen hoy de grandes masas de documentación que necesitan gestionar y controlar de manera eficiente sin que ello suponga una inversión de tiempo que no resulte rentable para un organismo. La gestión de toda la información de un centro de trabajo o gestión del conocimiento es progresivamente más eficaz gracias a la utilización de herramientas de tratamiento y gestión automáticos del lenguaje natural cada vez más inteligentes. Este aumento de inteligencia obedece, por un lado, a la utilización de estrategias de clasificación y acceso a la información cada vez mejores y más flexibles, y, por otro lado, a la disponibilidad de recursos asociados a estas estrategias.

Para progresar en el procesamiento textual es preciso conocer bien los mecanismos discursivos del texto especializado y aun más específicamente las unidades lingüísticas que vehiculan estos mecanismos. Concretamente, el texto especializado considerado como estructura de conocimiento específico puede representarse esquemáticamente en forma de nodos de conocimiento y relaciones entre ellos. Una gran parte de esos nodos de conocimiento se verbalizar a través de unidades lingüísticas que son nombres o sintagmas nominales. Si se trata de nombres corresponden siempre a unidades de carácter terminológico en el ámbito especializado en cuestión. Si son sintagmas nominales, en ellos aparece siempre una unidad de carácter terminológico, ya sea el núcleo o su extensión, y suelen materializarse a través de unos patrones recurrentes. Las relaciones se expresan a través de muy diferentes recursos y a cada uno de ellos con un alto índice de polisemia, lo que convierte en difícil y complejo el proceso de detección automática de estas relaciones. Que sea complejo, sin embargo, no supone que no se puedan encontrar patrones sintácticos, posiciones y marcadores que nos acercan a su detección automática o semiautomática.

La finalidad general de este proyecto es doble: 1) dar continuidad a las investigación básica y aplicada desarrollada hasta ahora por el grupo en esta línea y 2) abordar investigación nueva, básica y aplicada, en el marco de los objetivos a largo alcance a los que el grupo espera llegar.

En coherencia con esta doble intención, los objetivos específicos para los que solicitamos este proyecto se distribuyen en dos campos:

  • La investigación básica y descriptiva, orientada al procesamiento y extracción automáticos de la información
  • La investigación aplicada y el desarrollo de aplicaciones en forma de prototipos de tecnología lingüística, evaluados internamente en cuanto a su funcionamiento y utilidad, pero no desarrollados a nivel comercial.

Los objetivos concretos que se pretende alcanzar son de dos tipos, aunque relacionados entre si:

En el terreno de la investigación básica , y dentro del modelo teórico de base lingüística descrito en Cabré 2003:

  • establecer las diferencias lingüístico-gramaticales entre el discurso especializado y el no especializado a través de la exploración de un corpus especializado y otro general representativos del uso de la lengua;
  • analizar la tipología gramatical, semántica y pragmática de las unidades terminológicas en distintos ámbitos de especialidad, compararlas entre si y establecer generalizaciones por clases de ámbitos;
  • establecer y analizar algunas de las pistas formales del texto que confirman el uso especializado de una unidad del léxico;
  • analizar las correlaciones entre la estructura conceptual de los textos especializados (formalizada como nodos y relaciones) y la estructura lingüística del texto.

Estos objetivos teórico-descriptivos se corresponden a objetivos aplicados:

  • refinamiento del extractor de terminología YATE y adaptación a nuevos ámbitos de especialidad;
  • construcción de un sistema de búsqueda y clasificación automáticas de textos especializados a través de Internet y evaluación de la pertinencia temática y densidad especializada de dichos textos;
  • tanteos y propuesta de un prototipo de un sistema de representación de la estructura cognitiva de los textos especializados sobre la base de la terminología y las relaciones entre términos.