Català | English| Euskara | Galego

Subproyecto de la UPF-UPV

Objetivos propios

Paquetes de trabajo

Primera anualidad

PT11.- Desarrollo del corpus de economía para el euskera. Localización de textos en formato electrónico, selección de textos y partición de muestras. Procesamiento de los textos. Incorporación al corpus técnico del IULA accesible mediante BWANANET.

PT12. – Explotación del corpus de economía en castellano y en catalán. Extracción de información del corpus procesado sobre unidades léxicas, frecuencias, concordancias, etc. mediante BWANANET. Paralelización con ALINEA de la parte del corpus que contenga textos traducidos.

PT13.- Licencia de diccionarios computacionales y de analizadores morfológicos ya existentes para el euskera. Adaptación de las herramientas licenciadas a la cadena de trabajo. Adaptación de los sistemas de etiquetado morfológico.

PT14.- Localización de tesauros documentales, ontologías, jerarquías léxicas existentes y reutilizables con información sobre economía. Evaluación de contenidos y de posibilidades de importación. Localización de glosarios de economía en formato electrónico.

PT15.- Diseño y constitución de recursos. Importación de diccionarios de economía al sistema MERCEDES. Diseño de la ontología y de la base de datos terminológica asociada mediante Ontoterm. Diseño de la página web del proyecto. Protocolos de transferencia entre gestores de bases de datos.

Segunda anualidad

PT21.- Enriquecimiento de recursos léxicos. Base de datos de predicados (verbos, adjetivos y nominalizaciones) de la economía con información semántica y fraseológica para incorporar a diccionarios de procesamiento del castellano, catalán y euskera. Incorporación de datos, por importación y ad hoc, en la base de datos terminológica multilingüe.

PT22.- Construcción de la ontología. Revisión de las importaciones de ontologías reutilizables a la ontología de base. Incorporación de sistemas de conceptos a partir de los datos resultantes del PT12.

Tercera anualidad

PT31.- Diseño de estrategias lingüísticas para las consultas de RI. Tipología de consultas de interacción entre la base de datos terminológica y la ontología. Estrategias basadas en fraseología específica o concordancias del corpus. Establecimiento de un corpus de consultas de prueba.

PT32.- Pruebas de reelaboración de consultas con el sistema diseñado por el subproyecto de la USC. Análisis y evaluación de resultados.

PT33.- Implementación de todos los recursos y del sistema de reelaboración de consultas en el portal web del proyecto.

Subproyecto de la USC

Objetivos propios

Paquetes de trabajo

Primera anualidad

PT11.- Localización y adaptación de herramientas de procesamiento para el gallego. Diccionario, analizador morfológico y desambiguador. Adaptación de los sistemas de etiquetado morfológico.

PT12.- Desarrollo del corpus de economía para el gallego. Localización de textos en formato electrónico, selección de textos y partición de muestras. Marcaje estructural de los textos mediante SGML. Procesamiento lingüístico de los textos.

Segunda anualidad

PT21.- Análisis de posibilidades de importación de ontologías existentes en economía. Diseño de protocolos para su importación. Pruebas de importación.

PT22.- Explotación de los corpus (gallego y español) para el enriquecimiento de la base de datos terminológica y de la ontología.

Tercera anualidad

PT31.- Diseño de un sistema de reelaboración de consultas, que transforme una consulta simple en una lengua en una consulta compleja y combinada multilingüe a partir de la extracción de datos de la BD terminológica y de la ontología. Salida de la consulta reelaborada hacia diversos motores de búsqueda y metabuscadores.

PT32.- Fase de pruebas. Análisis y evaluación de resultados. Participación en la compleción del portal web, con el acceso al banco de conocimiento sobre economía, compuesto por corpus textual, BD terminológica y ontología y con la implementación del sistema de reelaboración de consultas.

Fecha de actualización: 26-06-2007