English | Español | Euskara | Galego

Subprojecte de la UPF-UPV

Objectius propis

Paquets de treball

Primera anualitat

PT11.- Desenvolupament del corpus d'economia per a l'euskera. Localització de textos en format electrònic, selecció de textos i partició de mostres. Processament dels textos. Incorporació al corpus tècnic de l'IULA accessible mitjançant BWANANET.

PT12. – Explotació del corpus d'economia en castellà i en català. Extracció d'informació del corpus processat sobre unitats lèxiques, freqüències, concordances, etc. mitjançant BWANANET. Paral·lelització amb ALINEA de la part del corpus que contingui textos traduïts.

PT13.- Llicència de diccionaris computacionals i d'analitzadors morfològics ja existents per a l'euskera. Adaptació de les eines llicenciades a la cadena de treball. Adaptació dels sistemes d'etiquetat morfològic.

PT14.- Localització de tesaures documentals, ontologies, jerarquies lèxiques existents i reutilitzables amb informació sobre economia. Avaluació de continguts i de possibilitats d'importació. Localització de glossaris d'economia en format electrònic.

PT15.- Disseny i constitució de recursos. Importació de diccionaris d'economia al sistema MERCEDES. Disseny de l'ontologia i de la base de dades terminològica associada mitjançant Ontoterm. Disseny de la pàgina web del projecte. Protocols de transferència entre gestors de bases de dades.

Segona anualitat

PT21.- Enriquiment de recursos lèxics. Base de dades de predicats (verbs, adjectius i nominalitzacions) de l'economia amb informació semàntica i fraseològica per incorporar a diccionaris de processament del castellà, català i euskera. Incorporació de dades, per importació i ad hoc, en la base de dades terminològica multilingüe.

PT22.- Construcció de l'ontologia. Revisió de les importacions d'ontologies reutilitzables a l'ontologia de base. Incorporació de sistemes de conceptes a partir de les dades resultants del PT12.

Tercera anualitat

PT31.- Disseny d'estratègies lingüístiques per a les consultes de RI. Tipologia de consultes d'interacció entre la base de dades terminològica i l'ontologia. Estratègies basades en fraseologia específica o concordances del corpus. Establiment d'un corpus de consultes de prova.

PT32.- Proves de reelaboració de consultes amb el sistema dissenyat pel subprojecte de la USC. Anàlisi i avaluació de resultats.

PT33.- Implementació de tots els recursos i del sistema de reelaboració de consultes en el portal web del projecte.

Subprojecte de la USC

Objectius propis

Paquets de treball

Primera anualitat

PT11.- Localització i adaptació d'eines de processament per al gallec. Diccionari, analitzador morfològic i desambiguador. Adaptació dels sistemes d'etiquetat morfològic.

PT12.- Desenvolupament del corpus d'economia per al gallec. Localització de textos en format electrònic, selecció de textos i partició de mostres. Marcatge estructural dels textos mitjançant SGML. Processament lingüístic dels textos.

Segona anualitat

PT21.- Anàlisi de possibilitats d'importació d'ontologies existents en economia. Disseny de protocols per a la importació. Proves d'importació.

PT22.- Explotació dels corpus (gallec i castellà) per a l'enriquiment de la base de dades terminològica i de l'ontologia.

Tercera anualitat

PT31.- Disseny d'un sistema de reelaboració de consultes, que transformi una consulta simple en una llengua en una consulta complexa i combinada multilingüe a partir de l'extracció de dades de la BD terminològica i de l'ontologia. Sortida de la consulta reelaborada cap a diversos motors de cerca i metacercadors.

PT32.- Fase de proves. Anàlisi i avaluació de resultats. Participació en la compleció del portal web, amb l'accés al banc de coneixement sobre economia, compost per corpus textual, BD terminològica i ontologia i amb la implementació del sistema de reelaboració de consultes.

Data d'actualització: 26-06-2007