Descripció del projecte
| Dret | El projecte
Corpus és el projecte de recerca prioritari de l'IULA
en què tots els membres participen. Recull textos escrits
en cinc llengües diferents (català, castellà, anglès,
francès i alemany) dins els dominis d'especialitat de
l'economia, el dret, el medi ambient, la medicina, la
informàtica i les ciències del llenguatge. A través de l'establiment del corpus, s'intenten
inferir les lleis que regeixen el comportament de cada
llengua en cada àrea. Aquest corpus és el suport principal
de les activitats de recerca i docència del nostre institut.
Les recerques previstes sobre el corpus són les següents:
detecció de neologismes i termes, estudis sobre variació
lingüística, anàlisi sintàctica parcial, alineació de
textos, extracció de dades per a l'ensenyament de segones
llengües, extracció de dades per a la construcció de diccionaris
electrònics, elaboració de tesaurus, etc. Els textos són seleccionats per especialistes de cada àrea i agrupats sobre la base d'una classificació temàtica i d'utilització proposada pels mateixos especialistes (Dret, Economia, Medi Ambient, Medicina, Informàtica i Ciències del llenguatge). Posteriorment els textos són marcats d'acord amb l'estàndard SGML i seguint les directrius marcades pel "Corpus Encoding Standard (CES) de la iniciativa EAGLES. (Estat actual) El processament dels textos del corpus segueix els següents passos:
|
Mostres del Corpus Tècnic
amb diferent nivell de processament
Eines de Tractament Informàtic
del Corpus i demos
Bwananet.
Programa d'explotació del Corpus Tècnic de l'IULA
SEXTAN:
Un detector de neologismes formals que utilitza la metodologia
del Corpus
Publicacions
relacionades amb el projecte
Altres persones i entitats col·laboradores en
el projecte Corpus
Investigadora
principal: M. Teresa Cabré
Coordinador:
Jordi Vivaldi
© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona