Universitat Pompeu Fabra
Institut Universitari de Lingüística Aplicada
 
Inici
Cerca
Contacte | Mapa Web

Projecte Corpus Corpus textual especialitzat plurilingüe

Descripció del projecte

Dret

Economia

Medi
Ambient

Medicina

Informàtica

Ciències del llenguatge

El projecte Corpus és el projecte de recerca prioritari de l'IULA en què tots els membres participen. Recull textos escrits en cinc llengües diferents (català, castellà, anglès, francès i alemany) dins els dominis d'especialitat de l'economia, el dret, el medi ambient, la medicina, la informàtica i les ciències del llenguatge. A través de l'establiment del corpus, s'intenten inferir les lleis que regeixen el comportament de cada llengua en cada àrea. Aquest corpus és el suport principal de les activitats de recerca i docència del nostre institut.  Les recerques previstes sobre el corpus són les següents: detecció de neologismes i termes, estudis sobre variació lingüística, anàlisi sintàctica parcial, alineació de textos, extracció de dades per a l'ensenyament de segones llengües, extracció de dades per a la construcció de diccionaris electrònics, elaboració de tesaurus, etc.

Els textos són seleccionats per especialistes de cada àrea i agrupats sobre la base d'una classificació temàtica i d'utilització proposada pels mateixos especialistes (Dret, Economia, Medi Ambient, Medicina, Informàtica i Ciències del llenguatge). Posteriorment els textos són marcats d'acord amb l'estàndard SGML i seguint les directrius marcades pel "Corpus Encoding Standard (CES) de la iniciativa EAGLES. (Estat actual)

El processament dels textos del corpus segueix els següents passos:

  • marcatge estructural
  • preprocés (detecció de dates, números, locucions, noms propis...)
  • anàlisi i marcatge morfològics d'acord amb els etiquetaris morfosintàctics dissenyats a l'IULA
  • desambiguació lingüística i/o estadística
  • emmagatzematge en una base de dades textual

Mostres del Corpus Tècnic amb diferent nivell de processament

Mostres CREL 

Eines de Tractament Informàtic del Corpus i demos

Bwananet. Programa d'explotació del Corpus Tècnic de l'IULA

SEXTAN: Un detector de neologismes formals que utilitza la metodologia del Corpus

Publicacions relacionades amb el projecte

Altres persones i entitats col·laboradores en el projecte Corpus

Investigadora principal: M. Teresa Cabré 

Coordinador: Jordi Vivaldi

 

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona