Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada
Pàgina inicial Versió imprimible Cercar informació Informació de contacte


Grup IULATERM / Projectes de recerca

Projectes vigents

Common Language Resources and Technologies (CLARIN), finançat per la Unió Europea (FP7-INFRASTRUCTURES-2007-1-212230) i pel Ministeri d'Educació i Ciència (CAC-2007-23). Investigadora principal: Dra. Núria Bel. Durada del projecte: 2008-2010. CLARIN és un projecte de col·laboració europea a gran escala per donar accés genèric a grans bancs de dades lingüístiques (textos, gravacions multimèdia, diccionaris, etc.), així com als instruments d'anàlisi i explotació d'aquestes dades (segmentadors, etiquetadors, analitzadors sintàtics, etc.), a investigadors de diferents àmbits d'Humanitats i Ciències Socials.
Adquisició automàtica d'informació lèxica (AAILE2), finançat pel Ministeri d'Educació i Ciència (HUM2007-61067/FILO). Investigadora principal: Dra. Núria Bel. Durada del projecte: 2007-2008.
Enriquiment d’ontologies per a l’extracció d’informació de discursos d’especialitat (RICOTERM3), finançat pel Ministeri d'Educació i Ciència (HUM2007-65966-C02-01/FILO). Investigadora principal: Dra. Mercè Lorente. Durada del projecte: 2007-2010.
Fonaments, estratègies i eines per al processament, extracció i representació d’informació especialitzada (TEXTERM3), finançat pel Ministeri d’Educació i Ciència (HUM2006-09458). Investigadora principal: Dra. M. Teresa Cabré Castellví. Durada del projecte: 2006-2009.
Banc de Coneixement sobre Genoma Humà. Aplicació en curs desenvolupada en el marc dels projectes anteriors. El banc de coneixement està concebut com una estructura modular formada pels següents elements: a) Corpus textual: constituït per textos especialitzats sobre genoma humà, multilingües, marcats segons l'estàndard SGML, preprocessats, lematitzats, etiquetats morfosintàcticament i desambiguats. b) Base de dades documental i factogràfica: formada, d'una banda, per dades bibliogràfiques que formen part del corpus textual, de les obres de referència de la base de dades terminològica i altres obres seleccionades per especialistes de l'àmbit; d'altra banda, per dades de persones, institucions, empreses, productes, mètodes, relacionats amb la temàtica. c) Base de dades terminològica: durant l'any 2002 se n'ha construït l'estructura i el protocol, i s'han començat a entrar les primeres dades provinents del corpus textual. d) Ontologia: s'utilitza el gestor Ontoterm©; s'ha iniciat la incorporació de conceptes a partir del corpus textual i de la base de dades terminològica.

Projectes anteriors

Control terminològic i discursiu per a la recuperació d'informació en àmbits comunicatius especialitzats, mitjançant recursos lingüístics específics i un reelaborador de consultes (RICOTERM-2), finançat pel Ministeri Ciència i Tecnologia (HUM2004-05658-C02-01/FILO). Investigadora principal: Dra. Mercè Lorente. Durada del projecte: 2005-2007.
Adquisició automàtica d'información léxica (AAILE), finançat pel Ministeri d'Educació i Ciència (HUM2004-05111-C02-01/FILO). Investigadora principal: Dra. Núria Bel. Durada del projecte: 2005-2007. L'objectiu de la nostra recerca és aplicar i validar diferents tècniques d'aprenentatge automàtic en l'adquisició de la informació continguda en els lèxics computacionals a partir de corpus textuals. El mètode és emprar les restriccions proposades per aquests lèxics per a esbiaixar les dades que seran presentades a l'aprenent automàtic, contrastant d'aquesta manera la representació de la informació lèxica proposada en lèxics computacionals ja desenvolupats, amb els resultats de les observacions experimentals d'aquests mètodes d'aprenentatge automàtic que capten classes significatives a partir de grans quantitats de dades. L'interès teòric que ens mereix aquesta àrea es centra en validar el paper de les restriccions sintàctiques i semàntiques, incloses en els lèxics computacionals, i en la possibilitat d'adquirir informació estructurada amb elles a partir d'un corpus. Validar-les a partir dels resultats per adquirir-les mitjançant mètodes d'aprenentatge automàtic ens permetrà millorar tant les aplicacions que tenen com a objectiu l'adquisició automàtica d'informació lèxica com l'estructura i representació mateixa de la informació del lèxic computacional. Des del punt de vista de l'aplicació, la possibilitat de reduir el temps i els recursos necessaris per al desenvolupament de lèxics computacionals ha de potenciar l'aplicació de tecnologies lingüístiques per a la gestió del coneixement a partir de continguts textuals, i, en particular, per a la implementació de sistemes de gestió d'informació i web semàntica amb independència de la llengua i el domini d'aplicació.
Linguistic Infrastructure for Interoperable Resources and Systems (LIRICS), finançat pel programa e-content de la Unió Europea (EDC-22236). Investigadora principal: Dra. Núria Bel. Durada del projecte: 2004-2006. L'objectiu del projecte és subministrar a investigadors i desenvolupadors de programari un conjunt comú i estable de formats, en forma de estàndards ISO, que permetin la interoperabilitat i la reutilització dels recursos lingüístics multilingües, el contingut digital i els programes d'enginyeria lingüística.
Multimodal AiR Quality Information Service for general public (MARQUIS), finançat pel programa e-content de la Unió Europea. Investigador principal: Dr. Leo Wanner. Durada del projecte: 2004-2006.
Fonaments, estratègies i eines per al processament i extracció automàtics d'informació especialitzada (TEXTERM2), finançat pel Ministeri de Ciència i Tecnologia (BFF2003-02111). Investigadora principal: Dra. M. Teresa Cabré Castellví. Durada del projecte: 2003-2006. El projecte es proposa continuar la feina en el processament del llenguatge natural a partir de corpus científic-tècnics que des de 1994 el Grup d'investigació en Lèxic, Terminologia i Discurs Especialitzat (IULATERM) està duent a terme i per al qual ha comptat amb ajuts del Pla Nacional, del Pla de la Comunitat Autònoma i de la Unió Europea. Els objectius que es persegueixen amb aquest projecte es divideixen en teòric-aplicats i aplicat-tecnològics. Més concretament, al terreny teòric orientat a l'extracció automàtica d'informació, els objectius proposats són: a) l'anàlisi dels diferents tipus d'Unitats de Coneixement Especialitzat (UCEs) pertinents en l'estructura de coneixement dels texts i b) l'anàlisi de les unitats que expressen la relació que, en els texts, s'estableixen entre les UCEs. Al terreny aplicat, a fi d'elaborar aplicacions tecnològiques, els objectius proposats són: a) enriquir els diccionaris de processament amb informació morfològica no flexiva (estructura morfològica interna), sintàctica (estructura argumental) i semàntica (característiques semàntiques dels arguments); b) desenvolupar un segmentador de l'estructura interna del lèxic (chunker morfològic); c) desenvolupar un segmentador sintàctic de segon nivell (chunker sintàctic); i d) millorar el sistema de representació automàtica de l'estructura de coneixement d'un text (mapes conceptuals). Durada del projecte: 2003-2006. A més dels membres del grup IULATERM, col·laboren altres membres de l'IULA.
  Textos especializados y terminología: selección y recuperación automática de la información (TEXTERM), finançat pel Ministerio de Educación y Ciencia (BFF2000-0841), va tenir per objectiu avançar en l'anàlisi discursiva, gramatical i semàntica dels textos d'especialitat i de les unitats lèxiques i fraseològiques, per tal d'aconseguir un sistema automàtic de detecció de les estructures cognitives subjacents en els textos especialitzats. La recerca es va organitzar a l'entorn de quatre àmbits: anàlisi de textos i elements de tipologització; unitats de coneixement especialitzat i representació conceptual; relacions conceptuals; necessitats d'informació dels usuaris. Al final del projecte està prevista una publicació de síntesi a partir dels diversos informes tècnics i descriptius generats. Durada del projecte: 2001-2003. A més dels membres del Grup IULATERM, hi han col·laborat altres membres de l'IULA.
  Sistema de recuperación de información con control terminológico y discursivo (RICOTERM), finançat pel Ministerio de Educación y Ciencia (TIC-2000-1191), va tenir per objectiu final el disseny d'un prototip de sistema de recuperació d'informació que superi el grau d'eficàcia dels actuals mitjançant el control terminològic. Organitzat coordinadament amb el projecte TEXTERM es va estructurar en tres paquets de treball de caràcter aplicat i tecnològic: mapeig d'estructures cognitives; generació automàtica i assistida d'ontologies; panorama dels sistemes de recuperació d'informació (RI) usats en documentació. Durada del projecte: 2001-2003. A més dels membres del Grup IULATERM, hi han col·laborat altres membres de l'IULA, especialment del Grup de Ciències de la Documentació. (DIGIDOC).
  La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica, finançat pel Ministerio de Educación y Ciencia (DGES PB96-0293). Període: 1997-2000. Projecte centrat en la identificació d'unitats i de relacions, en l'extracció automàtica d'unitats i en la representació d'unitats i relacions. Acull diverses tesis doctorals, algunes de les quals ja han estat presentades i altres estan en curs d'elaboració. Els resultats del projecte estan publicats a la Sèrie Materials de l'IULA.
  Projecte Lèxic, seguretat i salut laborals, projecte lexicogràfic dut a terme en col·laboració amb el Departament de Treball de la Generalitat de Catalunya, i elaborat a partir de la metodologia terminològica renovada que sorgeix dels plantejaments de la teoria comunicativa de la terminologia. Els resultats del projecte estan publicats com coedició amb el Departament de Treball de la Generalitat de Catalunya.
  Configuración morfológica y estructura argumental: léxico y diccionario, finançat pel Ministerio de Educación y Ciencia (DGICYT PB93-0546-C04). Projecte interuniversitari, finalitzat el 1997, amb l'objectiu de descriure de manera sistemàtica els processos de formació del lèxic per a l'espanyol, el català i l'euskera, amb un interès específic en la interrelació entre morfologia, semàntica i sintaxi. Els resultats del projecte estan publicats com coedició amb Universidad del País Vasco.
  Catàleg de diccionaris catalans és un projecte obert de recopilació i descripció dels productes lexicogràfics publicats en català que continua el treball de la publicació de M. Teresa Cabré i Mercè Lorente (1990) Els diccionaris catalans (1940-1988).
  ELC-DICTIONARIES, finançat per la Unió Europea, Thematic Network Project in the Area of Languages (29517-CP-1-96-DE-ERASMUS-ETN). Projecte finalitzat, l'objectiu del qual era recollir la informació dels recursos lexicogràfics existents en cada estat membre de la xarxa europea. El 1999 IULATERM va ser l'encarregat de redactar un informe sobre l'ensenyament de l'ús dels diccionaris en l'àmbit universitari a Catalunya, presentat a la University of Exeter (Gran Bretanya).
  Prototip d'estació de treball lexicogràfic (ETL). Projecte desenvolupat amb la col·laboració d'investigadors de l'Institut d'Estudis Catalans i de la Universitat Autònoma de Barcelona amb finançament del CREL. Consisteix en el disseny d'un prototip d'estació de treball integrada per a l'elaboració de diccionaris. La primera versió del prototip (v. 1.0) ha estat orientada cap al disseny de diccionaris monolingües en català. En versions posteriors està previst que el prototip prevegi altres tipus de diccionaris i inclogui totes les fases del treball lexicogràfic. Durant l'any 2002, i a partir de la concessió d'una subvenció per al grup IULATERM i l'empresa editorial SPES (2001 FIT-070000-2001-677), es va treballar en una versió per a la llengua castellana.
  Validador automàtic de traduccions (per a textos paral·lels en llengües romàniques), finançat pel Ministerio de Industria y Energía (Programa ATYCA, TS170/1999) per al període 1999-2000. Projecte destinat a construir un paral·lelitzador de textos jurídics per a la parella lingüística castellà i català que permeti validar traduccions, relacionat també amb el desenvolupament d'una tesi sobre discurs especialitzat. El projecte, acabat en aquesta fase, s'ampliarà, en convocatòries posteriors, cap a altres parelles de llengües romàniques i altres parelles de llengües allunyades tipològicament. En col·laboració amb el Laboratori de Tècniques Lingüístiques.
  RITerm-BD2, finançat per Unión Latina, en el marc dels projectes de la xarxa RITerm. Projecte en curs per al període 1999-2000, l'objectiu del qual és l'establiment d'un sistema d'intercomunicació i d'adaptació de formats per als bancs de dades terminològiques de l'àmbit de RITerm. A partir dels resultats d'un projecte anterior, RITerm-BD, que analitzava la infraestructura i la formació en terminologia dels països participants de la xarxa RITerm, el projecte actual té com a objectiu implementar un format de transferència de dades terminològiques entre alguns nodes de la xarxa. Participen en el projecte, a més d'IULATERM i Unión Latina, la Universidad de Antioquia (Colòmbia), URUTERM (Uruguai), El Colegio de México (Mèxic) i l'Instituto de Linguística Teórica e Computacional de la Universidade de Lisboa (Portugal).
Banc de dades terminològiques UPF_TERM, projecte finançat per la Direcció General de Política Lingüística, en el marc de projectes de Normalització Lingüística de l'any 2001, i pel Pla de mesures de suport a la innovació i la qualitat docents de la Universitat Pompeu Fabra de l'any 2001. L'objectiu d'aquest projecte és constituir un recurs electrònic per a la consulta i difusió dels treballs terminològics elaborats per alumnes de la Facultat de Traducció i Interpretació, de l'IULA i d'altres centres de treball i de recerca de la UPF. Constituït inicialment per treballs elaborats amb l'aplicació Multiterm 95+, han estat sistematitzats i convertits al format WebTerm 5.0.
  RITerm-BD, finançat per Unión Latina, en el marc de les activitats de la xarxa RITerm. Projecte finalitzat l'any 1996, l'objectiu del qual era l'anàlisi de la situació de la infraestructura i de la formació de terminologia en l'àmbit de RITerm. Els resultats del projecte poden consultar-se en forma d'informes.
  POINTER (Proposals for an Operational Infrastructure for Terminology in Europe), patrocinat per la Unió Europea, en el marc de MLAP'94 (Multilingual Action Plan) i coordinat per la University of Surrey. Aquest projecte, finalitzat l'any 1995, tenia com a objectiu la detecció de necessitats i l'avaluació de la infraestructura de la terminologia a Europa. IULATERM va participar en el subprojecte de formació en terminologia, els resultats del qual es troben a POINTER Technical Reports (1995).

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona