Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada
Pàgina inicial Versió imprimible Cercar informació Informació de contacte


Proyecto Corpus Corpus textual especializado plurilingüe

Descripción del proyecto

 

  Derecho

Economía

Medio
ambiente

Medicina

Informática

El proyecto Corpus es el proyecto de investigación prioritario del IULA. Recopila textos escritos en cinco lenguas diferentes (catalán, castellano, inglés, francés y alemán) de las áreas de especialidad de la economía, el derecho, el medio ambiente, la medicina y la informática. A través del establecimiento del corpus, se intentan inferir las leyes que rigen el comportamiento de cada lengua en cada área. Este corpus es el soporte principal de las actividades de investigación y docencia de nuestro instituto. 

Las investigaciones previstas sobre el corpus son las siguientes: detección de neologismos y términos, estudios sobre variación lingüística, análisis sintáctico parcial, alineación de textos, extracción de datos para la enseñanza de segundas lenguas, extracción de datos para la construcción de diccionarios electrónicos, elaboración de tesaurus, etc. 

Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas (Derecho, Economía, Medio ambiente, Medicina e Informática). Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el "Corpus Encoding Standard (CES) de la iniciativa EAGLES. (Estado actual)

El procesamiento de los textos del corpus sigue los siguientes pasos: 

  • marcaje estructural
  • preproceso (detección de fechas, números, locuciones, nombres propios...) 
  • análisis y marcaje morfológicos de acuerdo con los etiquetarios morfosintácticos diseñados en el IULA
  • desambiguación lingüística y/o estadística
  • almacenamiento en una base de datos textual

Muestas del Corpus Tecnico con diferentes niveles de processamiento

Muestas CREL

Herramientas de tratamiento informático del Corpus y demos

Bwananet. Programa de explotación del Corpus Técnico del IULA

SEXTAN: Un detector de neologismos formales que utiliza la metodologia del Corpus

Publicaciones relacionadas con el proyecto

Otras persones i entidades colaboradoras en el proyecto Corpus

Investigadora principal: M. Teresa Cabré 

Coordinador: Jordi Vivaldi

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona