Universitat Pompeu Fabra Institut Universitari de Lingüística Aplicada
Pàgina inicial Versió imprimible Cercar informació Informació de contacte


Projecte Corpus Demo de les eines de tractament del corpus (català)

Introduïu la frase a analitzar i seleccioneu el tipus de procés desitjat


 
analitzador 

analitzador + preprocés 
analitzador + preprocés + desambiguació 


  Aquesta demo permet provar els mòduls de preprocés, anàlisi morfològica i desambigüació per al català.

El mòdul de preprocés permet la detecció de: 

  • noms propis (Barcelona, Institut de la Dona de la Generalitat de Catalunya, San Carlos de Bariloche, Viaducto de la Polvorilla, ... )
  • dates (25 de maig de 1810, 25/5/1810, 25 de maig, ...)
  • números (22, vint-i-dos, XXII, 22è, ...)
  • abreviatures (etc., pag., art., ...) 
  • locucions (a mesura que, amb relació a, des de sempre, ...)
També tracta la separació de les contraccions (del, pel, ...) i de paraules gràfiques que contenen guionets i apòstrofs (l'altre, agafar-los, anar-se'n, ...)

Les característiques principals de l'analitzador morfològic CATMORF són les següents: 

  • cobreix la flexió nominal i verbal
  • cobreix alguns fenòmens de derivació (alguns casos de prefixació i els adverbis acabats en ment)
  • el seu lèxic conté unes 70000 entrades, de les quals 68000 són lemes.
  • el lèxic s'ha extret automàticament a partir del Diccionari de l'Institut d'Estudis Catalans (DIEC).
El mòdul de desambigüació es basa en una eina desenvolupada a ISSCO en el marc del projecte europeu MULTEXT i en l'adaptació al català realitzada a l'IULA. Les característiques principals d'aquest mòdul són les següents: 
  • basat en el model estadístic HMM (Hidden Markov Model)
  • separació entre els recursos que depenen de la llengua (diccionaris i etiquetaris) i els programes informàtics que els utilitzen
  • modularitat: separació de les tasques clarament definida

© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona