| |
Derecho Economía
Medio
ambiente
Medicina
Informática |
El proyecto Corpus es el proyecto de investigación
prioritario del IULA. Recopila textos escritos en cinco
lenguas diferentes (catalán, castellano, inglés,
francés y alemán) de las áreas de
especialidad de la economía, el derecho, el medio
ambiente, la medicina y la informática. A través
del establecimiento del corpus, se intentan inferir las
leyes que rigen el comportamiento de cada lengua en cada
área. Este corpus es el soporte principal de las
actividades de investigación y docencia de nuestro
instituto. Las investigaciones previstas sobre
el corpus son las siguientes: detección de neologismos
y términos, estudios sobre variación lingüística,
análisis sintáctico parcial, alineación
de textos, extracción de datos para la enseñanza
de segundas lenguas, extracción de datos para
la construcción de diccionarios electrónicos,
elaboración de tesaurus, etc.
Los textos son seleccionados por especialistas de cada
área y agrupados sobre la base de una clasificación
temática y de uso propuesta por los propios especialistas
(Derecho, Economía,
Medio ambiente, Medicina
e Informática). Posteriormente
los textos son marcados de acuerdo con el estándar
SGML
y siguiendo las directrices marcadas por el "Corpus
Encoding Standard (CES)
de la iniciativa EAGLES.
(Estado actual)
El procesamiento de los textos del corpus sigue los
siguientes pasos:
- marcaje estructural
- preproceso (detección de fechas, números,
locuciones, nombres propios...)
- análisis y marcaje morfológicos de
acuerdo con los etiquetarios
morfosintácticos diseñados en el IULA
- desambiguación lingüística y/o
estadística
- almacenamiento en una base de datos textual
|