Descripción del proyecto
| Derecho | El proyecto Corpus es el proyecto de investigación
prioritario del IULA. Recopila textos escritos en cinco
lenguas diferentes (catalán, castellano, inglés,
francés y alemán) de las áreas de
especialidad de la economía, el derecho, el medio
ambiente, la medicina, la informática y las ciencias del lenguaje. A través
del establecimiento del corpus, se intentan inferir las
leyes que rigen el comportamiento de cada lengua en cada
área. Este corpus es el soporte principal de las
actividades de investigación y docencia de nuestro
instituto. Las investigaciones previstas sobre el corpus son las siguientes: detección de neologismos y términos, estudios sobre variación lingüística, análisis sintáctico parcial, alineación de textos, extracción de datos para la enseñanza de segundas lenguas, extracción de datos para la construcción de diccionarios electrónicos, elaboración de tesaurus, etc. Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas (Derecho, Economía, Medio ambiente, Medicina, Informática y Ciencias del lenguaje). Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el "Corpus Encoding Standard (CES) de la iniciativa EAGLES. (Estado actual) El procesamiento de los textos del corpus sigue los siguientes pasos:
|
Muestas
del Corpus Tecnico con diferentes niveles de processamiento
Herramientas
de tratamiento informático del Corpus y demos
Bwananet.
Programa de explotación del Corpus Técnico del
IULA
SEXTAN:
Un detector de neologismos formales que utiliza la metodologia
del Corpus
Publicaciones
relacionadas con el proyecto
Otras
persones i entidades colaboradoras en el proyecto Corpus
Investigadora
principal: M. Teresa Cabré
Coordinador:
Jordi Vivaldi
© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona