Corpus i eines
L'Institut Universitari de Lingüística Aplicada s'ocupa, dins dels seus objectius de recerca bàsica i aplicada, del disseny i del desenvolupament de recursos lingüístics, d'eines de processament del llenguatge i d'extracció d'informació.
El projecte Corpus Tècnic és el projecte comú de tots els membres de l'IULA, i al voltant d'aquest s'hi continuen construint eines per a l'explotació de corpus.
| Corpus Tècnic de l'IULA | |
Accés ![]() |
Interfície de consulta online: Bwananet |
Contacte ![]() |
Subcorpus de textos: formulari de sol·licitud |
Contacte ![]() |
Subcorpus de genòmica en castellà en format stand-off: formulari de sol·licitud |
Contacte ![]() |
Subcorpus de genòmica en català en format stand-off: formulari de sol·licitud |
Download ![]() |
Subcorpus paral·lel anglès-castellà en format stand-off (alineació a nivell de frase): e-repositori |
El Corpus Tècnic aplega textos escrits del dret, l'economia, la genòmica, la medicina, el medi ambient, més un corpus de contrast de premsa. Les llengües del corpus són català, castellà, anglès, francès i alemany. Parts del Corpus Tècnic de l'IULA han estat reel·laborades ulteriorment en el marc del projecte Metanet4U. S'ha actualitzat el format de codificació d'acord amb els estàndards internacionals més recents i, en alguns casos, s'ha ampliat la informació lingüística incorporada. Aquests subcorpus es poden descarregar prèvia sol·licitud d'ús o directament des de l'e-repositori de la UPF. |
|
IULA Spanish LSP Treebank ![]() |
|
Accés ![]() |
Interfície de consulta online: TreebankBrowser |
Descàrrega ![]() |
Textos del corpus en format CoNLL: e-repositori |
Anotació sintàctica de dependències sobre 42.000 frases seleccionades del Corpus Tècnic de l'IULA (castellà) elaborada en el marc del projecte Metanet4U |
|
Malt parser for Spanish ![]() |
|
Accés ws ![]() |
Access malt_parser web service |
Descàrrega ![]() |
Descarrega el mòdul per al castellà del Malt parser espmalt-1.0.mco: e-repositori |
Instància del MaltParser entrenada per al castellà amb el corpus IULA Spanish LSP Treebank. |
|
| Corpus PAAU92 | |
Accés ![]() |
Interfície de consulta online: Bwananet |
Accés ![]() |
Suport digital del llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario": Corpus92 |
Descàrrega ![]() |
Textos del corpus en format stand-off: e-repositori |
El corpus PAAU92 està format per textos realitzats per estudiants el juny de 1992 durant les proves de accés a diverses universitats espanyoles. El corpus es pot consultar des del programa Bwananet o fent servir la interfície de consulta inclosa al llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario" que inclou els textos analitzats i les llistes de vocabulari que constitueixen el corpus. Aquest corpus també ha estat reel·laborat en el marc del projecte Metanet4U i es pot descarregar des de l'e-repositori de la UPF. |
|
Corpus d'articles de la Wikipedia ![]() |
|
Descàrrega ![]() |
Textos del corpus en format stand-off (Català): e-repositori |
Descàrrega ![]() |
Textos del corpus en format stand-off (Castellà): e-repositori |
Aquest corpus conté articles de la Wikipedia en català i castellà. Aquest articles corresponen a una versió del WikiCorpus millorada en el marc del projecte Metanet4U. Els textos han estat depurats, processats lingüísticament i generats en format stand-off.
|
|
Penn treebank IULA ![]() |
|
Descàrrega ![]() |
Frases amb anotació de dependències en format CoNLL: e-repositori |
Subconjunt de 805 frases (en anglès i castellà) del “Penn TreeBank corpus” anotades sintàcticament. Aquest corpus conté textos del Wall Street Journal compilats en orígen per la Universitat de Pennsylvania. La traducciÓ de les frases al castellà la van fer traductors humans. |
|
| RST Spanish Treebank | |
Accés ![]() |
online |
Interfície de consulta i descàrrega en línia d’un corpus de textos especialitzats en castellà anotats amb relacions discursives de la Rhetorical Structure Theory (RST). El RST Spanish Treebank és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), Grupo de Ingeniería Lingüística (IINGEN-UNAM, México D.F.) i TALNE (LIA-UAPV, Avignon). |
|
| Eines de processament de corpus | |
Accés ![]() |
demo online (adreça provisional) |
| Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador i un desambiguador estadístic. També permet visualitzar la informació del diccionari del desambiguador. | |
| PALIC | |
Accés ![]() |
demo online |
| Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador, un etiquetador morfosintàctic i un desambiguador de base lingüística. | |
| Desambigua | |
![]() |
|
| Banc de regles lingüístiques de desambiguació per al català i el castellà. | |
| Jaguar | |
Accés ![]() |
|
| Eina d'explotació estadística de corpus. Mostra concordances, compta enegrames, extrau col·locacions, ofereix mesures d'associació, distribució i similitud. | |
| Analitzador sintàctic en llengua castellana | |
![]() |
|
| Gramàtica HPSG per a la llengua castellana de codi obert implementada en el sistema LKB. | |
DiZer 2.0 ![]() |
|
Accés ![]() |
demo online |
Interfície per al desenvolupament i utilització en línia d’analitzadors discursius en diferents llengües basats en la Rhetorical Structure Theory (RST). Actualment, integra un analitzador complet per al portuguès de Brasil i analitzadors beta per al castellà i l'anglès. DiZer 2.0 és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Núcleo Interinstitucional de Lingüística Computacional (ICMC-USP, São Paulo), Iulaterm (IULA-UPF, Barcelona) i TALNE (LIA-UAPV, Avignon). |
|
DiSeg ![]() |
|
Accés ![]() |
demo online |
Interfície per a la descàrrega i utilització en línia d’un segmentador discursiu per al castellà basat en la Rhetorical Structure Theory (RST). Inclou a més un corpus gold standard de textos especialitzats segmentats manualment. DiSeg és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), TALNE (LIA-UAPV, Avignon) i GRIAL (UB, Barcelona). |
|
| Alinea | |
Accés ![]() |
|
| Eina de paral·lelització de textos traduïts, especialment dissenyada per a corpus especialitzats i com a validador de traduccions. | |
| Poppins | |
Accés ![]() |
|
| Disseny experimental de classificador de documents amb aprenentatge supervisat. |
© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona