Universitat Pompeu Fabra
Institut Universitari de Lingüística Aplicada
 
Inici
Search
Contacte | Mapa Web

Recursos IULA. Corpus i eines relacionades

.

L'Institut Universitari de Lingüística Aplicada s'ocupa, dins dels seus objectius de recerca bàsica i aplicada, del disseny i del desenvolupament de recursos lingüístics, d'eines de processament del llenguatge i d'extracció d'informació.

El projecte Corpus Tècnic és el projecte comú de tots els membres de l'IULA, i al voltant d'aquest s'hi continuen construint eines per a l'explotació de corpus.

 

Corpus Tècnic de l'IULA

Accés Accés

Interfície de consulta online: Bwananet

Contacte Accés

Subcorpus de textos: formulari de sol·licitud

Contacte Accés

Subcorpus de genòmica en castellà en format stand-off: formulari de sol·licitud

Contacte Accés

Subcorpus de genòmica en català en format stand-off: formulari de sol·licitud

Download Accés

Subcorpus paral·lel anglès-castellà en format stand-off (alineació a nivell de frase): e-repositori

Descripció:

El Corpus Tècnic aplega textos escrits del dret, l'economia, la genòmica, la medicina, el medi ambient, més un corpus de contrast de premsa. Les llengües del corpus són català, castellà, anglès, francès i alemany.

Parts del Corpus Tècnic de l'IULA han estat reel·laborades ulteriorment en el marc del projecte Metanet4U. S'ha actualitzat el format de codificació d'acord amb els estàndards internacionals més recents i, en alguns casos, s'ha ampliat la informació lingüística incorporada. Aquests subcorpus es poden descarregar prèvia sol·licitud d'ús o directament des de l'e-repositori de la UPF.

 

IULA Spanish LSP Treebank

Accés Accés

Interfície de consulta online: TreebankBrowser

Descàrrega Accés

Textos del corpus en format CoNLL: e-repositori

Descripció:

Anotació sintàctica de dependències sobre 42.000 frases seleccionades del Corpus Tècnic de l'IULA (castellà) elaborada en el marc del projecte Metanet4U

[+ informació (en anglès)]

 

Malt parser for Spanish

Accés ws Accés Access malt_parser web service
Descàrrega Accés Descarrega el mòdul per al castellà del Malt parser espmalt-1.0.mco: e-repositori
Descripció:

Instància del MaltParser entrenada per al castellà amb el corpus IULA Spanish LSP Treebank.

[+ informació (en anglès)]

 

Corpus PAAU92

Accés Accés

Interfície de consulta online: Bwananet

Accés Accés

Suport digital del llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario": Corpus92

Descàrrega Accés

Textos del corpus en format stand-off: e-repositori

Descripció:

El corpus PAAU92 està format per textos realitzats per estudiants el juny de 1992 durant les proves de accés a diverses  universitats espanyoles.

El corpus es pot consultar des del programa Bwananet o fent servir la interfície de consulta inclosa al llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario" que inclou els textos analitzats i les llistes de vocabulari que constitueixen el corpus.

Aquest corpus també ha estat reel·laborat en el marc del projecte Metanet4U i es pot descarregar des de l'e-repositori de la UPF.

 

Corpus d'articles de la Wikipedia

Descàrrega Accés

Textos del corpus en format stand-off (Català): e-repositori

Descàrrega Accés

Textos del corpus en format stand-off (Castellà): e-repositori

Descripció:

Aquest corpus conté articles de la Wikipedia en català i castellà. Aquest articles corresponen a una versió del WikiCorpus millorada en el marc del projecte Metanet4U. Els textos han estat depurats, processats lingüísticament i generats en format stand-off.

  • Corpus en català: 140.000 articles amb 35,6 M paraules
  • Corpus en castellà: 250.000 articles amb 92 M paraules
 

Penn treebank IULA

Descàrrega Accés Frases amb anotació de dependències en format CoNLL: e-repositori
Descripció:

Subconjunt de 805 frases (en  anglès i castellà) del “Penn TreeBank corpus” anotades sintàcticament. Aquest corpus conté textos del Wall Street Journal compilats en orígen per la Universitat de Pennsylvania. La traducciÓ de les frases al castellà la van fer traductors humans.

 

RST Spanish Treebank

Accés Accés online
Descripció:

Interfície de consulta i descàrrega en línia d’un corpus de textos especialitzats en castellà anotats amb relacions discursives de la Rhetorical Structure Theory (RST). El RST Spanish Treebank és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), Grupo de Ingeniería Lingüística (IINGEN-UNAM, México D.F.) i TALNE (LIA-UAPV, Avignon).

 

Eines de processament de corpus

Accés Accés demo online (adreça provisional)
Descripció: Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador i un desambiguador estadístic. També permet visualitzar la informació del diccionari del desambiguador.
 

PALIC

Accés Accés demo online
Descripció: Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador, un etiquetador morfosintàctic i un desambiguador de base lingüística.
 

Desambigua

en desenvolupament demo online disponible properament
Descripció: Banc de regles lingüístiques de desambiguació per al català i el castellà.
 

Jaguar

Accés Accés accés online provisional en fase de proves
Descripció: Eina d'explotació estadística de corpus. Mostra concordances, compta enegrames, extrau col·locacions, ofereix mesures d'associació, distribució i similitud.
 

Analitzador sintàctic en llengua castellana nou!!

Accés Accés demo online
Descripció: Gramàtica HPSG per a la llengua castellana de codi obert implementada en el sistema LKB.
 

DiZer 2.0

Accés Accés demo online
Descripció:

Interfície per al desenvolupament i utilització en línia d’analitzadors discursius en diferents llengües basats en la Rhetorical Structure Theory (RST). Actualment, integra un analitzador complet per al portuguès de Brasil i analitzadors beta per al castellà i l'anglès.  DiZer 2.0 és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Núcleo Interinstitucional de Lingüística Computacional (ICMC-USP, São Paulo), Iulaterm (IULA-UPF, Barcelona) i TALNE (LIA-UAPV, Avignon).

 

DiSeg

Accés Accés demo online
Descripció:

Interfície per a la descàrrega i utilització en línia d’un segmentador discursiu per al castellà basat en la Rhetorical Structure Theory (RST). Inclou a més un corpus gold standard de textos especialitzats segmentats manualment.  DiSeg és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), TALNE (LIA-UAPV, Avignon) i GRIAL (UB, Barcelona).

 

Alinea

Accés Accés demo online
Descripció: Eina de paral·lelització de textos traduïts, especialment dissenyada per a corpus especialitzats i com a validador de traduccions.
 

Poppins

Accés Accés accés online provisional en fase de proves
Descripció: Disseny experimental de classificador de documents amb aprenentatge supervisat.

 

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona