Metodología de trabajo

En nuestro grupo de investigación se organiza la realización de los proyectos en paquetes de trabajo (PTs). Al frente de cada paquete de trabajo figura un responsable y a cada paquete se asocian los miembros del proyecto cuyos intereses de investigación coinciden con los contenidos del mismo. Un mismo investigador puede formar parte, si así lo desea, de distintos PTs sin exceder el número de tres, ya que se pretende concentrar al máximo su esfuerzo. Este mismo criterio, aunque aplicado más restrictivamente, sirve para los becarios y doctorandos del Proyecto o asociados a él. Salvo en casos muy claramente orientados, se propone que los miembros del proyecto figuren por lo menos en un paquete teórico y en un paquete aplicado de acuerdo con su tema de investigación.

Este proyecto se propone organizar los trabajos en seis PTs, dos de investigación básica orientada (PTBs) y cuatro de investigación aplicada (PTAs).

Investigación básica orientada a los objetivos aplicados (PTBs):

PTB1. Análisis de las Unidades de Conocimiento Especializado e interrelación con los nudos de conocimiento de la estructura cognitiva del discurso especializado. Generalizaciones y posibilidades de incorporar la información en el proceso de tratamiento automático. En este proyecto, como en parte del anterior, se trabajará en un corpus de Genómica Humana (constituido en el Proyecto anterior) y en textos de carácter expositivo.
La responsabilidad de este paquete es de M. Teresa Cabré. Figuran en él R. Estopa, M. Lorente, J. Martí, J. Freixa, C. Bevilacqua, M. Suárez y O. Domènech. Se asocian las tesis de doctorado en curso de A. Adelstein, G. Quiroz, J. Giraldo.
PTB2. Análisis de la estructura conceptual del ámbito de la Genómica Humana a través de generalizaciones inferidas del análisis de los textos del corpus: estructura conceptual de los textos y unidades lingüísticas (morfológicas, léxicas y fraseológicas) más representativas del conocimiento en este ámbito. Análisis de las relaciones entre las unidades más significativas del discurso en este ámbito y clases de unidades lingüísticas que las expresan. Generalizaciones y posibilidades de incorporar la información en el proceso de tratamiento automático.
La responsabilidad de este paquete es de R. Estopà. Contribuyen en él M. T. Cabré, J. M. Castellà, J. Feliu y C. Tebé. Se asocian las tesis de doctorado en curso de R. Araya y C. Tebé.

Investigación aplicada (PTAs):

PTA1. Enriquecer los diccionarios de procesamiento (el diccionario del castellano que actualmente está formado de 103.000 lemas y 775.000 formas y el de catalán, de 96.000 entradas) con información morfológica (morfología léxica) y semántica utilizando la estrategia de extracción de información de corpora mediante patrones e indicios preindicados. En un proyecto distinto, el grupo trabajará en la obtención de información mediante el uso de la estrategia de MachineLearning. La primera, a través del uso de un segmentador; la segunda, usando EuroWordNet, la ontología del Genoma creada en el centro y tesauros ya compilados.
La responsabilidad de este paquete es de M. Teresa Cabré. Contribuyen en él todos los miembros del proyecto, incluido el personal técnico (C. Bach y J. Vivaldi).
PTA2. Desarrollo del Segmentador de la estructura interna (bases léxicas y afijos) de las entradas léxicas (Chunker morfológico)
La responsabilidad de este paquete es de N. Bel. Contribuyen en él J. Freixa, R. Estopà y Leo Wanner. Personal técnico: C. Bach, J. Vivaldi. Se asocian la tesis doctoral en curso de A. Alonso y los proyectos de tesis de M. L. González, I. Fuentes y G. Resnik.
PTA3. (1) Continuar el desarrollo del diccionario que interactúa con el analizador sintáctico con la introducción de información semántica: marcaje argumental de verbos y etiquetaje de grupos semánticos y 2)mejorar el analizador sintáctico, segundo nivel de análisis y mejoras técnicas (Chunker sintáctico).
La responsabilidad de este paquete es de M. Lorente. Contribuyen en él J. Freixa y L. Wanner. Personal técnico: C. Bach, J. Vivaldi. Se asocian la tesis de doctorado en curso de R. Folguerá y los proyectos de tesis de I. da Cunha y A. Joan.
PTA4. Mejorar el sistema de representación automática de estructuras conceptuales (nudos y relaciones conceptuales) no jerárquicas y tridimensionales, iniciado en el anterior proyecto concedido por el MCYT (BFF-2000-0841).
La responsabilidad de este paquete es de M. Teresa Cabré. Contribuyen en él J.M. Castellà, L. Wanner, J. Feliu y C. Tebé. Personal técnico: C. Bach, J. Vivaldi. Se asocian las tesis de doctorado en curso de R. Araya y L. Cámara.

La vertiente tecnológica del proyecto está asegurada por la participación de L. Wanner -Programa Ramon y Cajal- (doctor en lingüística computacional por la Universidad de Saarbrücken, titulado superior en informática), J. Vivaldi (doctor en informática por la Universitat Politècnica de Catalunya -UPC-) y J. Carrasco (titulado superior en informática por la UPC).

El Proyecto cuenta también con la colaboración en los trabajos de los PTAs de la empresa SPOC, especializada en gestión integrada del conocimiento, técnicas avanzadas de aprendizaje y tecnología informática aplicada, con la que el grupo tiene firmado un convenio de cooperación en desarrollo tecnológico (https://www.spoc.com/).

El Proyecto cuenta con el asesoramiento de los grupos y especialistas externos siguientes:

Text Corpora and Lexicon Group del Institut für Maschinelle Sprachverbeitung (IMS) de la Universidad de Stuttgart dirigido por el Dr. U. Heid. Su foco de trabajo es la creación a gran escala de léxicos de alta calidad para aplicaciones del lenguaje natural utilizando herramientas de recuperación de la información y métodos de extracción de la información procedentes del campo de la lexicografía. https://www.ims.uni-stuttgart.de/projekte/corplex/
Grupo de Investigación OntoTerm que tiene como objetivo elaborar herramientas de extracción de información. Está dirigido por el Dr. A. Moreno y la Dra. Ch. Pérez, que son colaboradores externos del grupo IULATERM.https://webdeptos.uma.es/filifa/personal/amoreno/
Centro de Investigación de la Web (CIW) del Departamento de Informática de la Universidad de Chile. Tiene como objetivo principal realizar investigación básica en problemas relacionados con la Web, enfocándose en tres aspectos específicos: Manejo y búsqueda de información no tradicional (multimedial, estructurada, etc.); Minería de la web; Modelación matemática de la Web; Extracción de datos de la Web. Dirigido por el Dr. R. Baeza.https://www.dcc.uchile.cl/~rbaeza/.