![]() |
10 anys del Corpus de l'IULA IULA/INF044/06 Autoria: M. T. Cabré, C. Bach, J. Vivaldi |
||
|
| Resum: | En aquest paper, es presenten els criteris de treball que s'han seguit durant els 10 anys en què s'ha anat constituint el corpus de l'IULA. S'exposa l'estat de les dades del corpus, els recursos lèxics utilitzats per al tractament de les dades (diccionaris i etiquetaris) i les eines constituïdes o adaptades. Es dedica especial atenció a la documentació de la cadena de treball de processament del corpus, des de l'adquisició dels textos en format electrònic fins a la seva incorporació definitiva al corpus. |
| Resumen: | En este paper, se presentan los criterios de trabajo que se han seguido durante los 10 años en qué se ha ido constituyendo el corpus del IULA . Se expone el estado de los datos del corpus, los recursos léxicos utilizados para el tratamiento de los datos (diccionarios y etiquetarios ) y las herramientas constituidas o adaptadas. Se dedica especial atención a la documentación de la cadena de trabajo de procesamiento del corpus, desde la adquisición de los textos en formato electrónico hasta su incorporación definitiva al corpus. |
| Abstract: |
In this paper, we present the work criteria taken into account in the development of the IULA's corpus during the last 10 years. We show the state of the corpus data, the lexical resources used for the data treatment (dictionaries and taggers), as well as the tools we have developed or adapted. We pay special attention to the description of the whole corpus processing steps, from the electronic text acquisition to their definitive addition to our corpus. |
© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona