Aquesta demo permet provar els mòduls de preprocés,
anàlisi morfològica i desambigüació per al català.
El mòdul de preprocés permet
la detecció de:
- noms propis (Barcelona, Institut de la Dona de la Generalitat de
Catalunya, San Carlos de Bariloche, Viaducto de la Polvorilla, ...
)
- dates (25 de maig de 1810, 25/5/1810, 25 de maig, ...)
- números (22, vint-i-dos, XXII, 22è, ...)
- abreviatures (etc., pag., art., ...)
- locucions (a mesura que, amb relació a, des de sempre, ...)
També tracta la separació de les contraccions (del, pel,
...) i de paraules gràfiques que contenen guionets i apòstrofs
(l'altre, agafar-los, anar-se'n, ...)
Les característiques principals de l'analitzador
morfològic CATMORF són les següents:
- cobreix la flexió nominal i verbal
- cobreix alguns fenòmens de derivació (alguns casos
de prefixació i els adverbis acabats en ment)
- el seu lèxic conté unes 70000 entrades, de les quals
68000 són lemes.
- el lèxic s'ha extret automàticament a partir del
Diccionari de l'Institut d'Estudis Catalans (DIEC).
El mòdul de desambigüació
es basa en una eina desenvolupada a ISSCO
en el marc del projecte europeu MULTEXT i en l'adaptació al català
realitzada a l'IULA. Les característiques principals d'aquest mòdul
són les següents:
- basat en el model estadístic HMM (Hidden Markov Model)
- separació entre els recursos que depenen de la llengua (diccionaris
i etiquetaris) i els programes informàtics que els utilitzen
- modularitat: separació de les tasques clarament definida
|
 |