Universitat Pompeu Fabra
Institut Universitari de Lingüística Aplicada
 
Inicio
Search
Contacto | Mapa Web

Recursos IULA. Corpus y herramientas relacionadas

El Instituto Universitario de Lingüística Aplicada se ocupa, dentro de sus objetivos de investigación básica y aplicada, del diseño y del desarrollo de recursos lingüísticos, de herramientas de procesamiento del lenguaje y de extracción de información.

El proyecto Corpus Tècnic es el proyecto común de todos los miembros del IULA, y a su alrededor continúan construyéndose herramientas para la explotación de corpus.

 

 

Corpus Tècnic del IULA

Acceso Accés

Interfaz de consulta online: Bwananet

Contacto Accés

Subcorpus de textos: formulario de solicitud

Contacto Accés

Subcorpus de genómica en español en formato stand-off: formulario de solicitud

Contacto Accés

Subcorpus de genómica en catalán en formato stand-off: formulario de solicitud

Descarga Accés

Subcorpus paralelo inglés-español en formato stand-off (alineación a nivel de frase): e-repositori

Descripción:

El Corpus Tècnic del IULA agrupa textos escritos de derecho, economía, genómica, medicina, medioambiente, más un corpus de contraste de prensa. Las lenguas del corpus son catalán, castellano, inglés, francés y alemán.

Partes del Corpus Tècnic del IULA se han reelaborado ulteriormente en el marco del proyecto Metanet4U. Se han actualizado los formatos de codificación de acuerdo con los estándares internacionales más recientes y, en algunos casos, se ha ampliado la información lingüística incorporada. Estos subcorpus están disponibles para ser descargados, algunos previa solicitud de uso y otros directamente desde el e-repisitori de la UPF.

 

IULA Spanish LSP Treebank

Acceso Accés

Interfaz de consulta online: TreebankBrowser

Descarga Accés

Textos del corpus en formato CoNLL: e-repositori

Descripción:

Anotación sintáctica de dependencias sobre 42.000 frases seleccionadas del Corpus Tècnic del IULA (español) elaborada en el marco del proyecto Metanet4U

[+ information]

 

Malt parser for Spanish

Acceso ws Accés Access malt_parser web service
Descarga Accés Descargar el módulo para el español del Malt parser espmalt-1.0.mco: e-repositori
Descripción:

Instancia del MaltParser entrenada para el español con el corpus IULA Spanish LSP Treebank.

[+ información (en inglés)]

 

Corpus PAAU92

Acceso Accés

Interfaz de consulta online: Bwananet

Acceso Accés

Soporte digital del libro “El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario”: Corpus92

Descarga Accés

Textos del corpus en formato stand-off: e-repositori

Descripción:

El corpus PAAU92 está formado por textos realizados por estudiantes en Junio de 1992 en el marco de las pruebas de acceso a varias  universidades españolas.

El corpus se puede consultar desde el programa Bwananet o utilizando la interfície de consulta elaborada para el libro "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario" que incluye los textos analizados y las listas de vocabulario que constituyen el corpus.

Este corpus también se ha reelaborado en el marco del proyecto Metanet4U y está diponible para ser descargado desde el e-repositori de la UPF.

 

Corpus de artículos de la Wikipedia

Descarga Accés

Textos del corpus en formato stand-off (Catalán): e-repositori

Descarga Accés

Textos del corpus en formato stand-off (Español): e-repositori

Descripción:

Recopilación de artículos de la Wikipedia en catalán y en español. Versión del WikiCorpus mejorada en el marco del proyecto Metanet4U. Los textos han sido depurados, procesados lingüísticamente y generados en formato stand-off.

  • Corpus en catalán: 140.000 artículos con 35,6 M palabras
  • Corpus en español: 250.000 artículos con 92 M palabras
 

Penn treebank IULA

DescargaAccés Sentences with dependencies anotation in CoNLL format: e-repositori
Descripción:

Subconjunto de 805 frases (en  inglés y español) del “Penn TreeBank corpus” anotadas sintácticamente. Este corpus es un recurso que contienen textos del Wall Street Journal y que en origen fueron compilados por la Universidad de Pennsylvania. La traducción de las frases al español fue realizada por traductores humanos.

 

RST Spanish Treebank

Acceso Accés online
Descripción:

Interfície de consulta y descarga en línea de un corpus de textos especializados en español anotados con relaciones discursivas de la Rhetorical Structure Theory (RST). El RST Spanish Treebank es el resultado de un proyecto internacional en colaboración entre los grupos de investigación: Iulaterm (IULA-UPF, Barcelona), Grupo de Ingeniería Lingüística (IINGEN-UNAM, México D.F.) y TALNE (LIA-UAPV, Avignon).

 

Herramientas de procesamiento de corpus

Acceso Accés demo online
Descripción: Paquete de herramientas de procesamiento de corpus en catalán y castellano. Incluye un preprocesador y un desambiguador probabilístico. También permite visualizar la información del diccionario del desambiguador.
 

PALIC

Acceso Accés demo online
Descripción: Paquete de herramientas de procesamiento de corpus en catalán y castellano. Incluye un preprocesador, un etiquetador morfosintáctico y un desambiguador de base lingüística.
 

Desambigua

en desenvolupament demo online disponible en breve
Descripción: Banco de reglas lingüísticas de desambiguación para el catalán y el castellano.
 

Jaguar

Acceso Accés acceso online provisional en fase de pruebas
Descripción: Herramienta de explotación estadística de corpus. Muestra concordancias, cuenta enegramas, extrae colocaciones, y ofrece medidas de asociación, distribución y similitud.
 

Analizador sintáctico en español

Acceso Accés demo online
Descripció: Gramática HPSG para el español de código abierto implementada en el sistema LKB.
 

DiZer 2.0

Acceso Accés demo online
Descripción:

Interfaz para el desarrollo y utilización en línea de analizadores discursivos en diferentes lenguas basados en la Rhetorical Structure Theory (RST). Actualmente, integra un analizador completo para el portugués de Brasil y analizadores beta para el español y el inglés.  DiZer 2.0 es el resultado de un proyecto internacional en colaboración entre los grupos de investigación: Núcleo Interinstitucional de Lingüística Computacional (ICMC-USP, São Paulo), Iulaterm (IULA-UPF, Barcelona) y TALNE (LIA-UAPV, Avignon).

 

DiSeg

Acceso Accés demo online
Descripción: Interfaz para la descarga y utilización en línea de un segmentador discursivo para el español basado en la Rhetorical Structure Theory (RST). Incluye además un corpus gold standard de textos especializados segmentados manualmente.  DiSeg es el resultado de un proyecto internacional en colaboración entre los grupos de investigación: Iulaterm (IULA-UPF, Barcelona), TALNE (LIA-UAPV, Avignon) y GRIAL (UB, Barcelona).
 

Alinea

Acceso Accés demo online
Descripción: Herramienta de paralelización de textos traducidos, especialmente diseñada para córpora especializados, y como validador de traducciones.
 

Poppins

Acceso Accés acceso online provisional en fase de pruebas
Descripción: Diseño experimental de clasificador de documentos con aprendizaje supervisado.

 

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona