Universitat Pompeu Fabra
Institut Universitari de Lingüística Aplicada
 
Inici
Search
Contacte | Mapa Web

Projecte Corpus. Corpus textual especialitzat plurilingüe

Descripció del projecte

El projecte Corpus és el projecte de recerca prioritari de l'IULA en què tots els membres participen. Recull textos escrits en cinc llengües diferents (català, castellà, anglès, francès i alemany) dins els dominis d'especialitat de l'economia, el dret, el medi ambient, la medicina, la informàtica i les ciències del llenguatge. A través de l'establiment del corpus, s'intenten inferir les lleis que regeixen el comportament de cada llengua en cada àrea. Aquest corpus és el suport principal de les activitats de recerca i docència del nostre institut.  Les recerques sobre el corpus inclouen: detecció de neologismes i termes, estudis sobre variació lingüística, anàlisi sintàctica parcial, alineació de textos, extracció de dades per a l'ensenyament de segones llengües, extracció de dades per a la construcció de diccionaris electrònics, elaboració de tesaurus, etc.

Els textos són seleccionats per especialistes de cada àrea i agrupats sobre la base d'una classificació temàtica i d'utilització proposada pels mateixos especialistes (Dret, Economia, Medi Ambient, Medicina, Informàtica i Ciències del llenguatge). Posteriorment els textos són marcats d'acord amb l'estàndard SGML i seguint les directrius marcades pel "Corpus Encoding Standard (CES) de la iniciativa EAGLES. (Estat actual)

En el marc del projecte METANET4U (2011-2013): (1) el processament del corpus s'ha adaptat a les noves directrius de l'estàndard LAF (Language resource management -- Linguistic annotation framework - ISO 24612:2012): format XML i anotació "stand-off" i (2) s'ha afegit el nivell d’anotació sintàctica a més de 42.000 frases en castellà del corpus.

El processament dels textos del corpus segueix els següents passos:

El Corpus tècnic de l'IULA es pot consultar online:

 

Mostres del Corpus Tècnic amb diferent nivell de processament

Mostres CREL

Eines de Tractament Informàtic del Corpus i demos

SEXTAN: Un detector de neologismes formals que utilitza la metodologia del Corpus

Publicacions relacionades amb el projecte

Altres persones i entitats col·laboradores en el projecte Corpus

Investigadora principal: M. Teresa Cabré 

Coordinador: Jordi Vivaldi

 

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona