Antecedentes

La especificidad del trabajo de procesamiento automático de las lenguas, centrado básicamente en la castellana y la catalana, que viene desarrollando nuestro grupo de investigación -primero Grupo LATRAL (1995SGR00342; 1996SGR00045; 1998SGR00085; 2000SGR00085) y, a partir del año 2001, Grupo de investigación en Léxico, Terminología y Discurso Especializado (IULATERM) (2001SGR00273)- desde el año 1994, radica fundamentalmente el hecho de tratar solo información temáticamente especializada.

El Grupo ha elaborado un corpus equilibrado multilingüe en cinco lenguas (castellano, catalán, inglés, francés y alemán) y en cinco ámbitos temáticos (medicina, informática, medioambiente, economía y derecho). Para el procesamiento de este corpus, aplicable a todo tipo de corpus informatizado, se han desarrollado en el grupo herramientas de procesamiento propias, tecnológicamente independientes de lengua y adaptadas mediante recursos lingüísticos específicos al castellano y al catalán, que ponemos a disposición, a través de convenio, de los grupos de investigación (una demostración y la referencia de cada una de estas herramientas se encuentra en la siguiente página web:https://www.iula.upf.edu). El grupo dispone además de herramientas de procesamiento para el inglés.

Los trabajos del grupo han seguido una línea progresiva y sistemática:

Durante el período 1994-1996, el grupo se concentró en la creación del corpus multilingüe de textos especializados en SGML y en el diseño y desarrollo de herramientas de tratamiento de este corpus. Para este trabajo el grupo recibió varias ayudas externas, la más importante corresponde al proyectro Corpus textual plurilingue especializado (CIRIT CS-93-4009).
De 1996 a 1999, período para el que se obtuvo el proyecto La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES PB96-0293), el grupo se concentró en el análisis y automatización de operaciones de detección de información a partir del corpus constituido y de la creación de un corpus de contraste de lengua general que permitiera comparar los datos entre los llamados textos especializados y los no especializados. Los objetivos fueron dos: 1) el reconocimiento de unidades terminológicas a partir de sus características formales; 2) el análisis de los elementos conceptuales relativos a los términos a partir de la exploración de los corpus especializados. Los resultados teóricos y aplicados del Proyecto fueron publicados en la obra Cabré; Feliu (eds) (2001). La terminología científico-técnica. Barcelona, IULA: ISBN: 84-477-0744-X, cuya publicación contó con financiación de la Acción Especial del Plan Nacional de I+D+I PGC-2000-3038 del MEC.
De 2000 hasta hoy, período para el que se obtuvo el proyecto Textos especializados y terminología: recuperación automática de la información (TEXTERM) (BFF-2000-0841), la investigación del grupo ha progresado en distintas vertientes:
1. En la vertiente teórica:
  1. Se ha hecho explícito el cuadro teórico para la descripción del conocimiento especializado y las unidades que lo vehiculan.
  2. Se han analizado y establecido las condiciones de especialidad de un texto, se ha propuesto una tipología de los textos por su nivel de especialidad y se han establecido los criterios explícitos de carácter cuantitativo que permite clasificar los textos por su nivel de especialización.
  3. Se han analizado y tipologizado las unidades de conocimiento especializado de los textos, más allá de las unidades terminológicas.
  4. Se han analizado y tipologizado las relaciones conceptuales de los textos especializados en biomedicina.
  5. Se ha publicado el informe evaluativo sobre los distintos sistemas de extracción de terminología existentes y disponibles.
  6. Se han establecido estrategias de análisis y reconocimiento automático de candidatos a términos y se han analizado las condiciones de mejora de este sistema mediante la incorporación de información semántica procedente de EuroWordNet.
2. En la vertiente aplicada y aplicaciones tecnológicas el grupo ha desarrollado para la investigación cuatro paquetes de herramientas:
  1. Herramientas de procesamiento:
    1. Sistema asistido de descripción del documento en SGML de acuerdo con las normas TEI y las normas CES.
    2. Sistema automático de preproceso de la información por el que se encapsulan fragmentos de texto que son combinaciones fijadas u otros símbolos no analizables lingüísticamente. Con este sistema el coste del procesamiento es menor.
    3. Sistema automático de análisis morfológico de base lingüística para el catalán (CATMORF) y el castellano (PALIC).
    4. Sistema automático de desambiguación de base lingüística también para ambas lenguas.
    5. Sistema estocástico de desambiguación.
    6. Sistema de análisis sintáctico de primer nivel, desarrollado sobre el formato de Constraint Grammar para el catalán y disponible también para el castellano. Se ha completado paralelamente el diccionario computacional con información sintáctica para todas las piezas verbales correspondientes a los lexicones del castellano y del catalán de los que disponemos.
    7. Sistema DIGIT, que convierte automáticamente artículos de diccionario en Bases de datos en formato MULTITERM.
  2. Herramientas de gestión de la información:
    1. Sistema de gestión automática de diccionarios de procesamiento por el que se selecciona siempre el corpus lexicográfico de análisis.
    2. Sistema de gestión de la neología léxica por el que se acumula información diacrónica sobre cada neologismo registrado.
  3. Herramientas de acceso a la información, que comprende:
    1. Herramienta general de acceso a la información: BWANA, versión 1 operativa en red local, y versión 2 BwanaNet, disponible en Internet.
    2. Herramientas de extracción de información selectiva:
      - Sistema YATE, extracción de terminología, tecnológicamente independiente de lenguas, que opera mediante patrones de reconocimiento morfosintáctico, información morfológica, información semántica y cálculo estadístico. Este programa de momento ha sido aplicado con éxito en textos de medicina en castellano y en catalán.
      - Segmentador morfológico-semántico de formantes cultos que permite descomponer las palabras de origen culto usadas en biomedicina en sus componentes grecolatinos y proponer un significado que es la suma de los significados de los formantes. El programa ha estado integrado en el sistema de extracción de terminología YATE.
      - Sistema SEXTAN, detector de neologismos léxicos formales en cualquier lengua.
      - Sistema MERCEDES, detector de unidades textuales presentes en corpus lexicográficos predeterminados. Este programa ha sido ampliado y actualizado (MERCEDES2) para poder seleccionar sólo las unidades que están presentes en un determinado corpus lexicográfico de un ámbito temático específico.
      - Explorador de marcas temáticas, que detecta y señala en los textos las unidades que pertenecen a ámbitos temáticos preestablecidos. Este programa es de gran utilidad para investigar sobre la densidad de conocimiento de un texto.
  4. Herramientas de representación: primera versión de sistema de representación de mapas conceptuales de los textos.

Los equipos de investigación que trabajan en la creación de herramientas para el procesamiento del lenguaje escrito están trabajando en la mejora de léxicos y en la mejora de recursos que permitan tratar la información morfológica, léxica, sintáctica y semántica. Nuestra investigación desea entrar en esta etapa en los siguientes dos ejes de trabajo:

La compleción del diccionario de referencia que utilizamos en el procesamiento como la estrategia más rentable en el refinamiento del procesamiento automático
La elaboración de nuevas herramientas de tratamiento de la información, o mejoramiento de las actuales, para obtener resultados mucho más ricos.

Los principales proyectos que se han desarrollado en el enriquecimiento de diccionarios y que consideramos importantes como base de nuestra investigación aplicada son los siguientes:

Proyecto GENELEX (GENEric LEXicon): proyecto financiado por la Comunidad Europea (EUREKA EU-524) en el que participaron diversos grupos de investigación europeos. Su objetivo era crear una arquitectura estándar para un modelo de diccionarios en máquina reutilizables en enginería lingüística (1992-94).
Proyectos Acquilex I y II: estos proyectos fueron financiados por la Comunidad Europea. El primero tenía como objetivo explorar la utilidad de construir bases de datos multilingües a partir de la información de diccionarios convencionales en soporte electrónico. La finalidad de la segunda fase del proyecto era explorar la utilidad de la explotación de corpus textuales informatizados para alimentar diccionarios convencionales. Este segundo proyecto finalizó en septiembre de 1995. El informe final se puede encontrar en: https://www.cl.cam.ac.uk/Research/NL/acquilex/acqhome.html
Proyecto PAROLE (LE2-4017, IV Programa Marco de la UE, Zampolli, 1997): conjunto de léxicos computacionales multifuncionales y armonizados con un mismo modelo (20.000 lemas en 12 lenguas europeas). Los léxicos Parole contienen información morfológica y sintáctica. Responsable para el castellano: Grupo de Investigación en Lingüística Computacional (GLIC), N. Bel. Responsable para el catalán: Institut d'Estudis Catalans, J. Solé. Este proyecto está desarrollado por EAGLES (Expert Advisory Group for Languages Engineering Standards). https://www.ilc.pi.cnr.it/
Proyecto SIMPLE (LE4-8346, IV Programa Marco de la UE, Bel, et al. 2000): es la continuación de PAROLE (EAGLES) y su objetivo es incorporar información semántica al conjunto de léxicos del consorcio PAROLE. https://www.ub.es/gilcub/SIMPLE/simple.html
Proyecto ISLE (International Standards for Languages Engineering) es el último de los proyectos desarrollados por el grupo EAGLES. Uno de los objetivos de ISLE es establecer los requerimientos básicos que debe tener una entrada léxica multilingüe basándose en los estándares previos desarrollados para léxicos monolingües. https://www.ilc.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm
Proyecto SIGNUM: lexicón creado por Microsoft Corp. formado por un núcleo de 115.000 lemas en castellano, con información flexiva de número, género, diminutivos, aumentativos, superlativos, peyorativos, conjunciones verbales, enclíticos y algunos morfemas derivativos como -mente, -ismo, super-, semi- que convierten los lemas iniciales en 5.000.000 de palabras.
Proyectos del Departamento de Lingüística Computacional de la Real Academia Española en el campo de la ingeniería lingüística, en concreto, son relevantes los trabajos de creación y mantenimiento de lexicones.
Proyecto IMLEX: lexicón en alemán en XML del IMS de la Universidad de Stuttgart. Contiene información morfológica (flexiva y léxica: formantes, afijos y reglas de combinación), información sintáctica (caso y argumento), información fonológica, sintáctica y cierta información semántica. Responsable: U. Heid.

Algunos de los proyectos que se han desarrollado herramientas de procesamiento sintáctico y semántico de información textual son los siguientes:

Proyecto YAC (Yet Another Chunker) es un segmentador y analizador sintáctico que incorpora cierta información semántica y jeraquiza las estructuras sintácticas en un primer nivel. Responsables: H. Kermes y U. Heid. https://www.ims.uni-stuttgart.de/cl/
Proyecto WordNet® es un sistema de léxico on-line inspirado en las teorías psicolingüísticas de la memoria léxica humana. Los nombres, verbos, adjetivos y adverbios del inglés están organizados en conjuntos de sinónimos cada uno representado bajo un concepto. Diferentes relaciones permiten relacionar estos synsets. https://www.cogsci.princeton.edu/~wn/. La continuación de este proyecto es el programa de investigación EuroWordNet financiado por la Comunidad Europea (LE-2 4003). El principal objetivo de este segundo proyecto es el de construir una base de datos multilingüe del vocabulario general con relaciones semánticas básicas entre palabras para distintas lenguas europeas. Cada una de las lenguas (wordnets) están conectadas con WordNet 1.5 de inglés americano y con un índice de significados (Interlingual Index o ILI). También posee una ontología común, mientras que las propiedades específicas de cada lengua se mantienen en los distintos wordnets individualmente. En una primera fase las lenguas de trabajo eran el holandés, el italiano y el español. Más tarde se añadieron el catalán, el vasco y el gallego. Las universidades españolas responsables de EuroWordNet son: UPC, UNED, UB, UPV y el Instituto Ramón Piñeiro de Santiago de Compostela. La información y bibliografía completas sobre el proyecto se encuentran en: https://www.lsi.upc.es/~nlp/
Proyecto Tratamiento automático de la información textual en español mediante bases de conocimiento lingüístico y transductores (MEC, Plan Nacional de I+D, Nº de Proyecto TIC99-0753): el objetivo de este proyecto es desarrollar un sistema informático que permita procesar automáticamente la información textual en español mediante bases de conocimiento lingüístico y algoritmos de intersección de autómatas. Las bases de conocimiento lingüístico están integradas por diccionarios electrónicos y gramáticas y semánticas electrónicas convertidos en transductores. Responsable: C. Subirats (Universidad Autónoma de Barcelona).
Proyecto GENIE: Genome Information Extraction. Este proyecto comprendre el desarrollo de una base de datos (GENILEX) y la elaboración de una ontología de los verbos utilizados en bioquímica. Este proyecto se está elaborando conjuntamente entre el IMS de la Universidad de Stuttgart, el Scientific Databases and Visualization Group (SDV) y el Natural Language Processing Group del European Media Laboratory (EML); y está financiado por la Fundación Vila Bosch de Heidelberg y el European Media Laboratory. Responsables: I. Rojas, U. Reyler. https://www.ims.uni-stuttgart.de/projekte/GenIE/
Proyecto OncoTerm: Sistema Bilingüe de Información y recursos oncológicos es un proyecto de investigación interdisciplinario sobre terminología médica realizado conjuntamente con el Hospital Universitario Virgen de las Nieves y financiado por el MEC (PB98-1342). Los objetivos de este proyecto son la creación y configuración de una amplia base de datos terminológica estrechamente relacionada con la constitución de una ontología sobre el ámbito. Responsables: P. Faber (Universidad de Granada) y A. Moreno (Universidad de Málaga). https://www.ugr.es/~oncoterm/intro.html