Antecedentes

La especificidad del trabajo de procesamiento automático de las lenguas, centrado básicamente en la castellana y la catalana, que viene desarrollando nuestro grupo de investigación - primero Grupo LATRAL (1995SGR00342; 1996SGR00045; 1998SGR00085; 2000SGR00085) y a partir del año 2001 Grupo de investigación en Léxico, Terminología y Discurso Especializado (IULATERM ) (2001SGR00273)- desde el año 1994, es fundamentalmente el hecho de tratar solo información temáticamente especializada.

El grupo ha elaborado un corpus equilibrado multilingüe en cinco lenguas: castellano, catalán, inglés, francés, alemán, de cinco ámbitos temáticos: medicina, informática, medioambiente, economía y derecho. Para el procesamiento de este corpus, aplicable a todo tipo de corpus informatizado, se han desarrollado en el grupo herramientas de procesamiento propias, tecnológicamente independientes de lengua y adaptados mediante recursos lingüísticos específicos al castellano y al catalán, que ponemos a disposición, a través de convenio, de los grupos de investigación (una demostración y la referencia de cada una de estas herramientas se encuentra en la siguiente página web: https://www.iula.upf.edu/). El grupo dispone además de herramientas de procesamiento para el inglés.

Los trabajos del grupo han seguido una línea progresiva y sistemática:

Durante el período 1994-1996, el grupo se concentró en la creación del corpus multilingüe de textos especializados en SGML y en el diseño y desarrollo de herramientas de tratamiento de este corpus. Para este trabajo el grupo recibió varias ayudas externas, la más importante corresponde al proyecto Corpus textual plurilingüe especializado (CIRIT CS-93-4009).
De 1996 a 1999, período para el que se obtuvo el proyecto La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES PB96-0293), el grupo se concentró en el análisis y automatización de operaciones de detección de información a partir del corpus constituido y de la creación de un corpus de contraste de lengua general que permitiera comparar los datos entre los llamados textos especializados y los no especializados. Los objetivos fueron dos: 1) el reconocimiento de unidades terminológicas a partir de sus características formales, y 2) el análisis de los elementos conceptuales relativos a los términos a partir de la exploración de los corpus especializados. Los resultados teóricos y aplicados del Proyecto fueron publicados en la obra Cabré; Feliu (eds.) (2001) La terminología científico-técnica . Barcelona, IULA: ISBN: 84-477-0744-X, cuya publicación contó con financiación de la Acción Especial del Plan Nacional de I+D+I PGC-2000-3038 del MEC.
De 2000 hasta 2006, período para el que se obtuvo los proyectos Textos especializados y terminología: recuperación automática de la información (TEXTERM) (BFF-2000-0841) Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada (TEXTERM2) (FF2003-02111) , la investigación del grupo se ha centrado en: a) la formulación de un marco teórico para la terminología, de base lingüística, sin prescindir de los aspectos cognitivos y discursivos; b) el establecimiento de las condiciones de especialidad de un texto y los criterios formales de su clasificación en niveles de especialidad; c) Un primer análisis de las unidades de conocimiento especializado (UCE); d) una primera clasificación de las relaciones conceptuales que se dan entre las UCE y el análisis de las unidades verbales que expresan relaciones; e) un informe evaluativo sobre los distintos sistemas de extracción de terminología existentes y disponibles y el establecimiento de algunas estrategias de análisis y reconocimiento automático de candidatos a términos, con la incorporación de información semántica procedente de EuroWordNet.

Objetivos Logrados en el proyecto TEXTERM 1 (BFF-2000-0841):

Los objetivos que se planteaban en TEXTERM1 se distribuían en dos vertientes: objetivos teórico-aplicados y objetivos aplicados-metodológicos. En la vertiente teórica, ambos proyectos se orientaban a la extracción automática de información.

En relación con los objetivos aplicados, el grupo desarrolló cuatro paquetes de herramientas de tratamiento automático con:

a. Herramientas de procesamiento:

a.1) Sistema asistido de descripción del documento en SGML y siguiendo las normas TEI.

a.2) Sistema automático de preproceso de la información por el que se encapsulan fragmentos de texto que son combinaciones fijadas u otros símbolos no analizables lingüísticamente. Con este sistema el coste del procesamiento es menor

a.3) Sistema automático de análisis morfológico de base lingüística para el catalán (CATMORF) y el castellano (PALIC)

a.4) Sistema automático de desambiguación de base lingüística también para ambas lenguas

a.5) Sistema estocástico de desambiguación

a.6) Sistema de análisis sintáctico de primer nivel desarrollado para todas las piezas verbales correspondientes a los lexicones del castellano y del catalán de los que disponemos

a.7) Sistema DIGIT, que convierte automáticamente artículos de diccionario en Bases de datos en formato MULTITERM

b. Herramientas de gestión de la información

b.1) Sistema de gestión automática de diccionarios de procesamiento por el que se selecciona siempre el corpus lexicográfico de análisis

b.2) Sistema de gestión de la neología léxica por el que se acumula información diacrónica sobre cada neologismo registrado

c. Herramientas de acceso a la información .

c.1) Herramienta general de acceso a la información: BWANA, versión 1 operativa en red local, y versión 2 BwanaNet, disponible en Internet.

c.2) Herramientas de extracción de información selectiva:

• Sistema YATE, exacción de terminología, tecnológicamente independiente de lenguas, que opera mediante patrones de reconocimiento morfosintáctico, información morfológica, información semántica y cálculo estadístico. Este programa ha sido aplicado con éxito en textos de medicina en castellano y en catalán.

• Segmentador morfológico-semántico de formantes cultos que permite descomponer las palabras de origen culto usadas en biomedicina en sus componentes grecolatinos y proponer un significado que es la suma de los significados de los formantes. El programa ha estado integrado en el sistema de extracción de terminología YATE.

• Sistema SEXTAN, detector de neologismos léxicos formales en cualquier lengua.

• Sistema MERCEDES, detector de unidades textuales presentes en corpus lexicográficos predeterminados.

d) Herramientas de representación : Primera versión de un sistema de representación tridimensional de mapas conceptuales de los textos.

Objetivos logrados hasta el momento en el proyecto TEXTERM 2 (en curso hasta diciembre de 2006):

En la vertiente teórico-descriptiva, orientado a la extracción automática de información se logró:

• establecer las características discriminantes de las unidades de conocimiento especializado y se estableció una primera tipología en correlación con el plano lingüístico. Son fruto de este objetivo los proyectos de tesis de A. R. Folguerá sobre Adjetivos especializados, Araceli Alonso sobre derivados nominales, V. Vidal sobre fraseología y colocaciones en Genómica Humana, J.J. Giraldo sobre siglas especializadas, A. Joan sobre verbos especializados y G. Quiroz sobre compuestos de más de tres elementos en el ámbito de la Genómica.; las tesis de C. Bevilacqua sobre Fraseología especializada en medioambiente, y M. Suárez y J.Freixa sobre variación denominativa, además de distintos artículos publicados por los miembros del grupo.

• establecer los criterios para determinar, describir y clasificar los textos de especialidad a partir de una parrilla de características multivariante. Fruto de este objetivo son los proyectos de O. Domènech sobre densidad terminológica y niveles de especialidad de los textos, y R. Guantiva sobre características discriminantes en la variación vertical de los textos especializados, y la tesis de J. M. Castellà sobre lingüística textual, además de los artículos y capítulos de libro publicados por los miembros del grupo.

En la vertiente aplicada, con el fin de avanzar en las herramientas y recursos de tratamiento automático de la información especializada y afinar la selección de información, los resultados que se han conseguido hasta ahora (falta un año de trabajo aun para terminar el proyecto) son:

• enriquecimiento del diccionario de procesamiento con información sintáctica (estructura argumental) y semántica (características semánticas de los argumentos)

• desarrollo de la versión multilingüe de BWANANET, herramienta de exploración general del corpus

• adaptación de la herramienta TERMWATCH al español a fin de llevar a cabo análisis de la información por clústeres.

Por el momento destacamos los proyectos ya presentados de R. Nazar sobre representación gráfica del contenido documental, de I. Da Cunha sobre resumen automático de documentos y de D. Burgos sobre recuperación semiautomática de terminología.

Tesis de doctorado y proyectos de tesis

En los últimos seis años se han defendido dentro del grupo las tesis de doctorado siguientes: a) dirigidas por la Dra. Cabré: Estopà (1999), Bernal (2002), Bach (2002), Morel (2002), Vivaldi (2002), Solé (2002), Freixa (2002), Amaro (2003), Bevilacqua (2004), Feliu (2004), Suárez (2004), Vallés (2004), Cámara (2005) y Tebé (2005) b)dirigidas por el Dr. Martí (Morales (2003) c) dirigidas por la Dra. Lorente: Colín (2003), Matamala (2004) y Márquez (2005).

Y se han defendido los siguientes proyectos de tesis, además de los ya presentados como tesis: (Domènech (1998), Kostina (2000), Adelstein (2001), Folguerà (2002), Riera (2003), Alonso (2003), Quiroz (2004), Resnik (2004), Vidal (2004), Burgos (2005), Guantiva (2005), da Cunha (2005), Giraldo (2005), Joan (2005), Nazar (2005).

Están ya en depósito las tesis de J. M. Mestres (2006) y M. Ribas (2006).

Difusión de los resultados

1) Se han presentado resultados en congresos internacionales como TIA 2005, RANLP 2005, SEL2004, SEL2005, RITERM2000, RITERM2002, RITERM2004, LREC2000, LREC2002, LREC2004,TIA2002, GLAT2000, GLAT 2004, EURALEX2004, AELCO2000, AESLA2000, AESLA2004, AESLA2005, ASELE 2004, 14 th European Symposium on LSP 2003, 1 5th European Symposium on LSP 2005, VI Congreso de Lingüística General 2004, Workshop on Terminology, Ontology and Knowledge Representation 2004, XIX Encontro Nacional da APL 2003, AET2003, ENETI 2003.

2) Se han publicado artículos en revistas internacionales como Terminology, Organon, TradTerm, Hermeneus, Lingua e Stile ; y nacionales como Discurso y Sociedad, Sendébar, Caplletra . En el ANEXO 1 se incluye la totalidad de publicaciones y comunicaciones a congresos y la defensa de tesis doctorales y trabajos de investigación de los miembros del grupo.

3) En el marco de los proyectos TEXTERM 1 y TEXTERM 2 el grupo ha organizado o coorganizado las actividades siguientes:

• I, II, III, IV y V Escuela Internacional de Verano de Terminología (julio de 1997, 1999, 2001, 2003, 2005 Barcelona) y la participación en la I Escuela Internacional de Invierno de Terminología (17-27 de julio de 2000, Sao Paulo)

• Seminario de terminología teórica, organizado por J.-C. Sager y M. T. Cabré el 28-29 de enero de 1999 que condujo a la publicación de un número monográfico de la revista TERMINOLOGY (2000); en el Workingshop Infoterm-IULATERM el 11 y 12 de febrero del 2000 en el que participaron los profesores BudIn, Galinski y Smithz.

• Jornadas de la Red Temática de Cognición, terminología y lenguajes de especialidad (XT-1999-0039, XT-2001-0032, y XT2003-00051) (10 y 11 de noviembre del 2000 (UPF, Barcelona), 11 y 12 de mayo de 2001 (UV, Valencia), 14 y 15 de diciembre del 2001 (UF, Barcelona) y 27 de junio de 2002 (UAB, Barcelona)) y la publicación de los trabajos de la red en la monografía Cabré; Bach (eds) (2005) Coneixement, llenguatge i discurs especialitzat. Barcelona, IULA: 84-934349-5-7.

• Coloquio Internacional GLAT-Barcelona 2004 (12, 13 y 14 de mayo): "La producció de textos especialitzats: estructura i ensenyament".

• Jornada sobre Variación geolectal y terminología (REALITER)

• II Cimera Mundial de la Terminología (EAFT) .

• IX Simposio Iberoamericano de Terminología: La terminología en el siglo XXI: contribución a la cultura de la paz, la diversidad y la sostenibilidad , (del 29 de noviembre al 2 de diciembre del 2004)

4) El grupo ha publicado los siguientes libros :

• un libro con los trabajos de TEXTERM 1: (Cabré; Feliu (eds) (2001) La terminología científico -técnica . Barcelona, IULA: ISBN: 84-477-0744-X, publicación que contó con financiación de la Acción Especial del Plan Nacional de I+D+I PGC-2000-3038 del MEC); cuya versión en inglés está aceptada por la editorial John Benjamins;

• un libro con los resultados de las interacciones sobre el tema que el grupo ha mantenido con grupos de distintas universidades mediante la red Temática concedida por el gobierno autonómico (XT99-00036, 2001XT-0032, 2003XT-00051) Cabré; Bach (eds.) (2005) Coneixement, llenguatge i discurs especialitzat. Barcelona, IULA: 84-934349-5-7.

• y espera publicar los resultados de TEXTERM 2 cuando el proyecto esté finalizado (diciembre 2006).

Los equipos de investigación que trabajan en la creación de herramientas para el procesamiento del lenguaje escrito están trabajando sobre:

• Sistemas de extracción automática de terminología utilizando información lingüística o estadística

• Sistemas de detección de relaciones conceptuales y creación automática de ontologías a partir de corpus

• S istemas de representación gráfica del contenido de documentos y corpus textuales.

A) Los tres proyectos más relevantes vinculados con la primera de las líneas de investigación, sistemas de extracción automática de terminología utilizando información lingüística o estadística, son los que siguen:

Proyecto TERMOSTAT, financiado por el " Fonds québécois de la recherche sur la société et la culture", en el que participan los profesores Nancy Bourassa, Marie Ans y Patrick Drouin de la Universidad de Montreal (Canadá). El objetivo de este proyecto es la detección de términos en textos de especialidad a partir de la observación del comportamiento del léxico en un corpus de la lengua general. El extractor desarrollado por este equipo se encuentra disponible para el inglés y el francés en https://olst.ling.umontreal.ca/~drouinp/termostat_web/?lang=fr_CA
Proyecto ACABIT , desarrollado en el "Laboratoire d'Informatique de Nantes Atlantique" de la Universidad de Nantes. El objetivo de este proyecto es la adquisición de términos binarios a partir de un texto procesado lingüísticamente, el resultado es una lista ordenada de candidatos a término. Se puede encontrar la información de este proyecto en https://www.sciences.univ-nantes.fr/info/perso/permanents/daille/
Proyecto FASTR, proyecto desarrollado en la Universidad de Nantes por Christian Jacquemin. El objetivo de FASTR es construir un analizador para el reconocimiento de términos y sus variantes a partir de un corpus y una lista de términos. El resultado obtenido es una lista ampliada de términos y variantes. Se puede encontrar más información en https://www.limsi.fr/Individu/jacquemi/FASTR/index.html

B) Las principales aportaciones de la investigación en sistemas de detección de relaciones conceptuales y creación automática de ontologías a partir de corpus se pueden concretar en los proyectos siguientes:

Línea de investigación sobre Sémantique et Corpus , en la que se desarrollan diversos proyectos relacionados con el tratamiento automático de corpus y en especial con el estudio de las relaciones semánticas en corpus textuales desarrollados en la Université Toulouse II bajo la dirección de Anne Condamines.
Proyecto ExtraPloDocs (ETRAction de Connaissances pour l'exPLOitation de la DOCumentation Scientifique), desarrollado en el Laboratoire d'informatique de Paris-Nord y dirigido hacia la extracción de información de grandes bases de datos textuales como Medline.
Proyecto OntoLearn. Este proyecto, desarrollado por Roberto Navigli y Paola Velardi en la Università di Roma, tiene por objetivo la obtención de ontologías de dominio a partir de sitios web y contribuir así al desarrollo de la llamada web semántica.
Proyecto CADRE (A Tool for Transforming WordNet into a Core Knowledge Base) desarrollado en la Southern Methodist University bajo la dirección de Dan Moldovan. El objetivo de este proyecto en extender WordNet (base de datos léxico-semántica para el inglés) de tal manera de hacerlo mas útil para tareas como la recuperación de información, sistemas de interrogación y el resumen automático.

C) Finalmente, algunos de los principales proyectos vinculados a la representación gráfica del contenido semántico del texto son los siguientes:

Proyecto de generación automática de "espacios conceptuales" (Concept Spaces), definidos como conjuntos de términos interrelacionados semánticamente. El objetivo de representar un estado de conocimiento o memoria semántica como una red de proposiciones, para lo cual se extrae el significado que subyace a la forma superficial de los textos. Cada término en esta red se representa como un nodo, y cada vez que dos términos aparecen relacionados en un documento, se activan conjuntamente los nodos que los representan, consolidando la relación entre ellos al mismo tiempo que se debilita las de los que no se activan, hasta llegar a un punto de convergencia en el que hay unos pocos fuertemente asociados y muchos otros distantes, donde los efectos de activación paulatinamente se desvanecen. Responsables: CHEN, H.; SCHATZ, B.; NG, T.; MARTINEZ, J.; KIRCHHOFF, A. y LIN, C.;(1996) A Parallel Computing Approach to Creating Engineering Concept Spaces for Semantic Retrieval: The Illinois Digital Library Initiative Project. University of Arizona. https://ai.bpa.arizona.edu/papers/pami96/pami96.html
Proyecto de generación automática de tesauros , definido como el mapeo o estructuración de las palabras que están relacionadas semánticamente. Para ello se utilizan medidas de similitud semántica en base a la coocurrencia léxica. La estrategia consiste en generar de un vector de coocurrencias para cada término y la posterior determinación de similitud por medio de la comparación de estos vectores entre sí. El coeficiente de asociación semántica entre pares de términos se basa en la aparición conjunta en una ventana de contexto de 40 palabras. La similitud entre vectores, definida por el coseno, se resuelve visualmente en un ploteo de reducción de variables (dimensionality reduction), procedimiento ampliamente utilizado en estadística para representar una comparación de vectores en un espacio de 2 ó 3 dimensiones, asequible a nuestro sistema perceptual. Responsables:
SCHÜTZE, H. y PEDERSEN, J.( 1997). A cooccurrence-based thesaurus and two applications to information retrieval. Information Processing and Management. 33(3), p.307-318;
H. Schütze trabaja actualmente en el IMS de la Universidad de Stuttgart.
Proyecto de generación automática de topic maps . Esta propuesta consiste en detectar tópicos y sus respectivas relaciones a partir de colecciones documentales no estructuradas. La idea principal de este planteo es que las palabras más significativas exhiben una distribución reconocible en los documentos y las asociaciones entre pares de términos pueden calcularse por ello en base a la coocurrencia de términos tanto en la oración como en el documento. Si la frecuencia de coaparición es significativamente alta respecto a lo observado en un corpus de referencia, se considera que entre esos términos existe una relación semántica. Responsables:
BÖHM, K.; MAICHER, L.; WITSCHEL, H. y CARRADORI, A.(2004); Moving Topic Maps to Mainstream - Integration of Topic Map Generation in the Users' Working Environment. Universidad de Leipzig. https://www.informatik.uni-leipzig.de/~maicher/publications/[Maic04a].pdf
Proyecto TermWatch. Es un sistema de recuperación de información que tiene por objetivo la generación automática de un mapa de los términos que se vinculan entre sí. Se presenta como un algoritmo de textmining no supervisado, capaz de identificar el núcleo de cada estructura sintagmática y a partir de allí, aplicar clusterings para generar agrupamientos de términos en función de sus elementos comunes. Los resultados se expresan en el código Graph description language (GDL) que luego interpreta un programa de visualización, en forma de una red de arcos y nodos. IBEKWE-SANJUAN, F. y SANJUAN, E. (2004b); Mapping the structure of research topics through term variant clustering: the TermWatch system; JADT 2004 : 7es Journées internationales d'Analyse statistique des Données Textuelles https://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2004/pdf/JADT_056.pdf
Proyecto de extracción de grafos conceptuales. Este es un desarrollo de la semántica de predicados aplicada a la estructuración de conceptos a partir de texto corriente, y está fundada en la semiótica, la lógica de predicados y los lenguajes formales de Charles Sanders Pierce. La teoría es aplicable para la inferencia automática de relaciones semánticas, como el estudio de las marcas en la superficie del texto que exhiben las relaciones semánticas más relevantes. Estos gráficos conceptuales son una combinación de nodos y relaciones que se forman a partir de cinco primitivos semánticos: existencia, correferencia, relación, conjunción y negación.
SOWA, J.(2000); Ontology, Metadata, and Semiotics, ICCS Darmstadt, https://users.bestweb.net/~sowa/peirce/ontometa.htm