Universitat Pompeu Fabra
Institut Universitari de Lingüística Aplicada
 
Inici
Cerca
Contacte | Mapa Web

Papers de l'IULA / Sèrie Informes

El Corpus de l'IULA: etiquetaris
IULA/INF018/97
Autoria: Jordi Morel, Sergi Torner, Jordi Vivaldi, M. Teresa Cabré
 
[descarregar arxiu PDF / descargar fichero PDF / download PDF file]
Resum: El projecte central que es duu a terme a l'Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra és el corpus de Llenguatges especialitzats. En el marc d'aquest projecte —que implica cinc dominis d'especialitat (dret, economia, informàtica, medi ambient i medicina) i cinc llengües (català, castellà, francès, anglès i alemany)— s'han desenvolupat dos etiquetaris per a la llengua catalana i castellana. Amb el desenvolupament d'aquests etiquetaris es pretén facilitar l'etapa del processament lingüístic del corpus. En aquest paper es discuteixen, d'una banda, alguns aspectes teòrics relatius a la construcció d'etiquetaris i, de l'altra, es presenten els dos etiquetaris que s'han elaborat a l'IULA.
Resumen: El proyecto central que lleva a cabo el Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra es el corpus de Llenguatges especialitzats. En el marco de este proyecto (que involucra cinco dominios de especialidad: derecho, economía, informática, medio ambiente y medicina; y cinco lenguas: catalán, castellano, francés, inglés y alemán) se han desarrollado etiquetarios tanto para la lengua catalana como para la castellana. Con el desarrollo de los etiquetarios se pretende facilitar la etapa de procesamiento lingüístico del corpus. En este documento se presentan ciertas teorizaciones respecto a la construcción de etiquetarios, como también los dos etiquetarios desarrollados por el IULA.
Abstract: The main project being carried out at the Institute for Applied Linguistics (IULA) at Universitat Pompeu Fabra involves a corpus of specialized language. This project involves five domains (i.e., law, economics, computer science, environmental science and medicine) and five languages (i.e., Catalan, Spanish, French, English and German). A pair of tagsets has been developed for Catalan and Spanish to facilitate the linguistic processing of the IULA corpus. In this paper we first discuss some theoretical aspects of tagset building and then we present the two IULA tagsets.

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona