Adquisición Automática de Información Léxica (AAILE)

(Automatic Acquisition of Lexical Information)

Resumen

La creación de léxicos computacionales con un alto nivel de información lingüística para diferentes lenguas, y, en cada una, para todos los posibles dominios del conocimiento es un requisito para la aplicación real de las tecnologías lingüísticas. El costo de estas bases de información léxica, en términos de recursos humanos, pero también en cuanto al factor tiempo, está retrasando la aplicación de estas tecnologías.

La adquisición automática de información léxica es una de las líneas de trabajo que pretende solucionar el problema del desarrollo de léxicos computacionales aplicando tecnologías de aprendizaje automático. La aplicación de tecnología basada en probabilidad condicionada (árboles de decisión y NaiveBayes) y redes bayesianas ha demostrado ser viable con resultados que permiten plantear la expansión. Basar los procesos de aprendizaje automático en información motivada lingüísticamente, como hemos hecho en AAILE, ha dado resultados comparables a los trabajos publicados.

En AAILE hemos fijado la metodología y creado herramientas (plataforma gráfica, plataforma de experimentación y la implementación del algoritmo) para el aprendizaje automático probando que el enfoque es correcto con resultados que igualan o superan los de los trabajos más reconocidos. AAILE 2 ha de ir más allá de la prueba de viabilidad para demostrar que es una técnica utilizable y provechosa en aplicaciones concretas.

 

 

Publicaciones/Publications

Bel, Núria; Espeja, Sergio; Marimon, Montserrat (2006). "New tools for the encoding of lexical data extracted from corpus" dins Proceedings of the 5th International Conference on Language Resources and Evaluation. Paris: European Language Resources Association. Pàg. 1362-1367. ISBN 2-9517408-2-4.

Bel, Núria; Espeja, Sergio; Marimon, Montserrat (2007). "Automatic Acquisition of Grammatical Types for Nouns" dins Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Companion Volume, Short Papers. Rochester, New York: Association for Computational Linguistics. Pàg. 5-8. ISBN 1-932432-94-9 (pdf)

Marimon, Montserrat; Bel, Núria; Espeja, Sergio; and Seghezzi, Natalia (2007). "The Spanish Resource Grammar: Pre-processing Strategy and Lexical Acquisition" dins Baldwin, Timothy et al. (ed.) Proceedings of the ACL2007 Workshop on Deep Linguistic Processing. Stroudsburg, PA 18360: Association for Computational Linguistics. Pàg. 105-111. ISBN 978-1-932432-88. (pdf)

Bel, Núria; Bel, Santiago (2008). "Measuring standards in Lexical Resources (Workshop: Uses and Usage of Language Resource-related Standards)" dins Calzolari, Nicoletta et al. (eds.) Proceedings of the Sixth International Conference on Language Resources and Evaluation. Paris: European Language Resources Association. Pàg. 15-20. ISBN 2-9517408-4-0

Bel, Núria; Espeja, Sergio; Marimon, Montserrat; Villegas, Marta (2008). "COLDIC, a Lexicographic Platform for LMF compliant lexica" dins Calzolari, Nicoletta et al. (eds.) Proceedings of the Sixth International Conference on Language Resources and Evaluation. Paris: European Language Resources Association. ISBN 2-9517408-4-0

Bel, Núria; Espeja, Sergio; Marimon, Montserrat (2008). "Automatic acquisition for low frequency lexical items" dins Calzolari, Nicoletta et al. (eds.) Proceedings of the Sixth International Conference on Language Resources and Evaluation. Paris: European Language Resources Association. ISBN 2-9517408-4-0

Materiales/Materials

Gold Standards

(with the collaboration of Eva Revilla, Natalia Seghezzi and Manuel Souto)

ADJ-ES-455 This file contains gold-standard encoding used for lexical acquisition of Spanish adjectives. More information about features can be found HERE. Note that non ambiguos adjectives have been selected, although feature distribution has not been controlled. Hence most of the adjectives are post-nominal, for instance and only few of them have a prepositional complement.

NOUN-ES-250 This file contains gold-standard enconding used for lexical acquisition of Spanish Nouns. You can find more information in Bel, Núria; Espeja, Sergio; Marimon, Montserrat (2007) and Bel, Núria; Espeja, Sergio; Marimon, Montserrat (2008). Note that non ambiguos nouns have been selected, although feature distribution has not been controlled.

 

 

Resultados/Results

AAILE - New tools for the encoding of lexical data extracted from corpus - Lexicographical Platform

AAILE Experimenter - Virtual Lab for lexical acquisition

 


Ministerio de Educación y Ciencia

proyectos HUM2004-05111-C02-01 y HUM2007-61067