Proyectos vigentes
| Jugando a definir la ciencia, financiado por la Fundación Española para la Ciencia y la Tecnología (FCT-11-2501). Investigadora principal: Dra. Rosa Estopà. Duración del proyecto: 2011-2012. | |
| Distancia lingüística entre los ejes espacial y temporal: aspectos fonológicos y morfológicos del catalán, financiado por el Ministerio de Ciencia e Innovación (FFI2010-22181-C03-03). Investigador principal: Dr. Esteve Clua. Duración del proyecto: 2011-2013. | |
![]() |
Procesos de actualización del léxico español a partir de la prensa editada en Cataluña (APLE), financiado por el Ministerio de Ciencia e innovación (FFI2009-12188-C05-01). Investigadora principal: Dra. M. Teresa Cabré Castellví. Duración del proyecto: 2010-2012. Con este proyecto se pretende proporcionar datos fiables sobre las tendencias léxicas observadas en el español en distintas variedades a fin de avanzar en el análisis de la dinámica del léxico en español y contribuir a la adopción de criterios para su actualización en los campos especializados. |
![]() |
CLARA Initial Training Network for Common Language Resources and their Applications, financiado por la Marie Curie Initial Training Network (7FP-ITN-238405) del 7º Programa Marco de la Unión Europea. Investigadora principal: Dra. Núria Bel. Duración del proyecto: 2009-2013. El objetivo de la red CLARA es incentivar la formación de una nueva generación de expertos en lingüística que pueda desarrollar métodos de investigación para la construcción, el uso y la aplicación de recursos lingüísticos. Con los objetivos científicos de CLARA se pretende profundizar en la creación de modelos lingüísticos basados en datos reales, que serán más tarde analizados con herramientas estadísticas y de aprendizaje automático, así como en la combinación de técnicas y métodos de análisis. CLARA financiará un total de 17 becas de formación en diferentes áreas relacionadas con la creación, el uso y la aplicación de recursos lingüísticos. Las convocatorias se harán públicas en la página web del proyecto y en la de Euraxess. |
![]() |
PANACEA: Platform for the Automatic, Normalized Annotation and Cost-Effective Acquisition of Language Resources for Human Language Technologies, financiada por el Área de Tecnologías del Lenguaje, Tecnologías de la Información y la Comunicación del 7º Programa Marco de la Unión Europea (7FP-ITC-248064). Investigadora principal: Dra. Núria Bel. Duración del proyecto: 2010-2012. El objetivo de PANACEA es desarrollar tecnologías para la automatización de todas las fases involucradas en la adquisición, producción, actualización y mantenimiento de Recursos y Tecnologías Lingüísticas. El proyecto, coordinado por el Grupo TRL, cuenta con la participación de la Universidad de Cambridge, el Istituto di Linguistica Computazionale de Italia, el Institute for Language and Speech Processing de Grecia, la Dublin City University de Irlanda y dos compañías, la alemana Linguatec y la francesa ELDA, Evaluation and Language Resources Distribution Agency. |
![]() |
Banco de Conocimiento sobre Genoma Humano. Aplicación en curso desarrollada en el marco de los proyectos anteriores. El banco de conocimiento está concebido como una estructura modular formada por los siguientes elementos: a) Corpus textual: constituido por textos especializados sobre genoma humano, multilingües, marcados según el estándar SGML, preprocesados, lematizados, etiquetados morfosintácticamente y desambiguados. b) Base de datos documental y factográfica: formada, por una parte, por datos bibliográficos que forman parte del corpus textual, de las obras de referencia de la base de datos terminológica y otras obras seleccionadas por especialistas del ámbito; por otra parte, por datos de personas, instituciones, empresas, productos, métodos, relacionados con la temática. c) Base de datos terminológica: durante el año 2002 se ha construido la estructura y el protocolo, y se han empezado a entrar los primeros datos provinientes del corpus textual. d) Ontología: se utiliza el gestor Ontoterm©; se ha iniciado la incorporación de conceptos a partir del corpus textual y de la base de datos terminológica. |
Proyectos anteriores
![]() |
Fostering Language Resources Network (Flarenet), financiado por el programa e-contentplus de la Unión Europea (ECP-2007-LANG-617001), pretende la creación de una red, cuyos objetivos son crear y promover recomendaciones consensuadas sobre futuros desarrollos, despliegues y usos de los recursos lingüísticos. Flarenet seleccionará prácticas modélicas y políticas adecuadas para la coordinación de acciones y proyectos en un futuro. Las principales actividades de la red serán estudiar, analizar y clasificar recursos lingüísticos y estándares relevantes, junto con posibles modelos económicos y organizativos, así como debatir con los principales agentes y grupos de interés sobre nuevas estrategias comunes para un despliegue y uso exhaustivo de los recursos lingüísticos en productos y aplicaciones en casos reales. |
![]() |
Common Language Resources and Technologies (CLARIN), financiado por la Unión Europea (FP7-INFRASTRUCTURES-2007-1-212230) i por el Ministerio de Educación y Ciencia (CAC-2007-23). Investigadora principal: Dra. Núria Bel. Duración del proyecto: 2007-2008. CLARIN es un proyecto de colaboración europea a gran escala para dar acceso genérico a grandes bancos de datos lingüísticos (textos, grabaciones multimedia, diccionarios, etc.), así como a los instrumentos de análisis y explotación de estos datos (segmentadores, etiquetadores, analizadores sintácticos, etc.), a investigadores de diferentes ámbitos de Humanidades y Ciencias Sociales. |
![]() |
Enriquecimiento de ontologías para la extracción de información de discursos de especialidad (RICOTERM3), financiado por el Ministerio de Educación y Ciencia (HUM2007-65966-C02-01/FILO). Investigadora principal: Dra. Mercè Lorente. Duración del proyecto: 2007-2010. |
![]() |
Adquisición automática de información léxica (AAILE2), financiado por el Ministerio de Educacióny Ciencia (HUM2007-61067/FILO). Investigadora principal: Dra. Núria Bel. Duración del proyecto: 2007-2008. |
![]() |
Fundamentos, estrategias y herramientas para el procesamiento, extracción y representación de información especializada (TEXTERM3), financiado por el Ministerio de Educación y Ciencia (HUM2006-09458). Investigadora principal: Dra. M. Teresa Cabré Castellví. Duración del proyecto: 2006-2009. |
![]() |
Control terminológico y discursivo para la recuperación de información en ámbitos comunicativos especializados, mediante recursos lingüísticos específicos y un reelaborador de consultas (RICOTERM2), financiado por el Ministerio de Educación y Ciencia (HUM2004-05658-C02-01/FILO). Investigadora principal: Dra. Mercè Lorente. Duración del proyecto: 2005-2007. |
![]() |
Adquisición automática de información léxica (AAILE), financiado por el Ministerio de Educación y Ciencia (HUM2004-05111-C02-01/FILO). Investigadora principal: Dra. Núria Bel. Duración del proyecto: 2004-2007. El objetivo de este proyecto es aplicar y validar diferentes técnicas de aprendizaje automático en la adquisición de la información contenida en los léxicos computacionales a partir de corpus textuales. El método es utilizar las restricciones propuestas por estos léxicos para sesgar los datos que serán presentados al aprendiz automático, contrastando así la representación de la información léxica propuesta en léxicos computacionales ya desarrollados, con los resultados de las observaciones experimentales de estos métodos de aprendizaje automático que captan clases significativas a partir de grandes cantidades de datos. El interés teórico que nos merece esta área se centra en validar el papel de las restricciones sintácticas y semánticas que se incluyen en los léxicos computacionales y en la posibilidad de adquirir información estructurada relacionada con ellas a partir de corpus. Validarlas a partir de los resultados para adquirirla por medio de métodos de aprendizaje automático nos permitirá mejorar tanto las aplicaciones que tienen como objetivo la adquisición automática de información léxica como la estructura y representación misma de la información del léxico computacional. Desde el punto de vista de la aplicación, la posibilidad de reducir el tiempo y los recursos necesarios para el desarrollo de lexicones computacionales ha de potenciar la aplicación de tecnologías lingüísticas para la gestión del conocimiento a partir de contenidos textuales, y, en particular, para la implementación de sistemas de gestión de información y web semántica con independencia de la lengua y del dominio de aplicación. |
![]() |
Linguistic Infrastructure for Interoperable Resources and Systems (LIRICS), financiado por el programa e-content de la Unión Europea (EDC-22236). Investigadora principal: Dra. Núria Bel. Duración del proyecto: 2004-2006. El objetivo del proyecto LIRICS es proveer a investigadores y desarrolladores de herramientas de un conjunto común estable de formatos, en forma de estándares ISO, que permitan la interoperabilidad y la reutilización de los recursos lingüísticos multilingües, el contenido digital y los programas de ingeniería lingüística. |
![]() |
Multimodal AiR Quality Information Service for general public (MARQUIS), financiado por el programa e-content de la Unión Europea. Investigador principal: Dr. Leo Wanner. Duración del proyecto: 2004-2006. |
![]() |
Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada (TEXTERM2), financiado por el Ministerio de Educación y Ciencia (BFF2003-02111), Investigadora principal: Dra. M. Teresa Cabré Castellví. Duración del proyecto: 2003-2006. El proyecto se propone continuar el trabajo en el procesamiento del lenguaje natural a partir de corpus científico-técnicos que desde 1994 el Grupo de investigación en Léxico, Terminología y Discurso Especializado (IULATERM) está llevando a cabo y para el cual ha contado con ayudas del Plan Nacional, del Plan de la Comunidad Autónoma y de la Unión Europea. Los objetivos que se persiguen con este proyecto se dividen en teórico-aplicados y aplicado-tecnológicos. Más concretamente, en el terreno teórico orientado a la extracción automática de información, los objetivos propuestos son: a) el análisis de los distintos tipos de Unidades de Conocimiento Especializado (UCEs) pertinentes en la estructura de conocimiento de los textos y b) el análisis de las unidades que expresan la relación que, en los textos, se establecen entre las UCEs. En el terreno aplicado, con el fin de elaborar aplicaciones tecnológicas, los objetivos propuestos son: a) enriquecer los diccionarios de procesamiento con información morfológica no flexiva (estructura morfológica interna), sintáctica (estructura argumental) y semántica (características semánticas de los argumentos); b) desarrollar un segmentador de la estructura interna del léxico (chunker morfológico); c) desarrollar un segmentador sintáctico de segundo nivel (chunker sintáctico); y d) mejorar el sistema de representación automática de la estructura de conocimiento de un texto (mapas conceptuales). Duración del proyecto: 2003-2006. Además de los miembros del grupo IULATERM, colaboran otros miembros del IULA. |
| Textos especializados y terminología: selección y recuperación automática de la información (TEXTERM), financiado por el Ministerio de Educación y Ciencia (BFF2000-0841), cuyo objetivo era avanzar en el análisis discursivo, gramatical y semántico de los textos de especialidad y de las unidades léxicas y fraseológicas, para conseguir un sistema automático de detección de las estructuras cognitivas subyacentes en los textos especializados. La investigación se organizó en torno a cuatro ámbitos: análisis de textos y elementos de tipologización; unidades de conocimiento especializado y representación conceptual; relaciones conceptuales; necesidades de información de los usuarios. Al final del proyecto se preve una publicación de síntesis a partir de los diversos informes técnicos y descriptivos generados. Duración del proyecto: 2001-2003. Además de los miembros del grupo IULATERM, colaboran otros miembros del IULA. | |
| Sistema de recuperación de información con control terminológico y discursivo (RICOTERM), financiado por el Ministerio de Educación y Ciencia (TIC-2000-1191), tenía como objectivo final el diseño de un prototipo de sistema de recuperación de información que supere el grado de eficacia de los actuales mediante el control terminológico. Organizado coordinadamente con el proyecto TEXTERM se estructuró en tres paquetes de trabajo de carácter aplicado y tecnológico: mapeo de estructuras cognitivas; generación automática y asistida de ontologías; panorama de los sistemas de recuperación de informació (RI) usados en documentación. Duración del proyecto: 2001-2003. Además de los miembros del grupo IULATERM, colaboran otros miembros del IULA, especialmente del Grup de Ciències de la Documentació (DIGIDOC). | |
| La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica, financiado por el Ministerio de Educación y Ciencia (DGES PB96-0293). Período: 1997-2000. Proyecto centrado en la identificación de unidades y de relaciones, en la extracción automática de unidades y en la representación de unidades y relaciones. Acoge diversas tesis doctorales, algunas de las cuales ya han sido presentadas y otras están en curso de elaboración. Los resultados del proyecto se han publicado en la Sèrie Materials del IULA. | |
| Projecte Lèxic, seguretat i salut laborals, proyecto lexicográfico llevado a cabo en colaboración con el Departament de Treball de la Generalitat de Catalunya, y elaborado a partir de la metodología terminológica renovada que surge de los planteamientos de la teoria comunicativa de la terminología. Los resultados del proyecto se han publicado en coedición con el Departament de Treball de la Generalitat de Catalunya. | |
| Configuración morfológica y estructura argumental: léxico y diccionario, financiado por el Ministerio de Educación y Ciencia (DGICYT PB93-0546-C04). Proyecto interuniversitario, finalizado en 1997, con el objetivo de describir de manera sistemática los procesos de formación del léxico para el español, el catalán y el euskera, con un interés específico en la interrelación entre morfología, semántica y sintaxis. Los resultados del proyecto se han publicado en coedición con la Universidad del País Vasco. | |
| Catàleg de diccionaris catalans es un proyecto abierto de recopilación y descripción de los productos lexicográficos publicados en catalán que continúa el trabajo de la publicación de M. Teresa Cabré y Mercè Lorente (1990), Els diccionaris catalans (1940-1988). | |
| ELC-DICTIONARIES, financiado por la Unión Europea, Thematic Network Project in the Area of Languages (29517-CP-1-96-DE-ERASMUS-ETN). Proyecto terminado, cuyo objetivo era recoger la información de los recursos lexicográficos existentes en cada estado miembro de la red europea. En 1999 IULATERM fue el encargado de redactar un informe sobre la enseñanza del uso de los diccionarios en el ámbito universitario en Cataluña, que fue presentado en la University of Exeter (Gran Bretaña). | |
| Prototipo de estación de trabajo lexicográfico (ETL). Proyecto desarrollado con la colaboración de investigadores del Institut d'Estudis Catalans y de la Universitat Autònoma de Barcelona, con financiación del CREL. Consiste en el diseño de un prototipo de estación de trabajo integrada para la elaboración de diccionarios. La primera versión del prototipo (v. 1.0) se ha orientado hacia el diseño de diccionarios monolingües en catalán. En versiones posteriores está previsto que el prototipo contemple otros tipos de diccionarios y abarque todas las fases del trabajo lexicográfico. Durante el año 2002, y a partir de la concesión de una subvención para el grupo IULATERM y la empresa editorial SPES (2001 FIT-070000-2001-677), se ha trabajado en una versión para la lengua castellana. | |
| Validador automático de traducciones (para textos paralelos en lenguas románicas), financiado por el Ministerio de Industria y Energía (Programa ATYCA, TS170/1999) para el período 1999-2000. Proyecto destinado a construir un paralelizador de textos jurídicos para la pareja lingüística castellano y catalán que permita validar traducciones, y relacionado también con el desarrollo de una tesis sobre discurso especializado. El proyecto, terminado en esta fase, se ampliará, en convocatorias posteriores, hacia otros pares de lenguas románicas y otros pares de lenguas alejadas tipológicamente. En colaboración con el Laboratori de Tècniques Lingüístiques. | |
| RITerm-BD2, financiado por Unión Latina, en el marco de los proyectos de la red RITerm. Proyecto en curso para el período 1999-2000, cuyo objetivo es el establecimiento de un sistema de intercomunicación y de adaptación de formatos para los bancos de datos terminológicos del ámbito de RITerm. A partir de los resultados de un proyecto anterior, RITerm-BD, que analizaba la infraestructura y la formación en terminología de los países participantes de la red RITerm, el proyecto actual tiene por objetivo implementar un formato de transferencia de datos terminológicos entre algunos nodos de la red. Participan en el proyecto, además de IULATERM y Unión Latina, la Universidad de Antioquia (Colombia), URUTERM (Uruguay), El Colegio de México (México) y el Instituto de Linguística Teórica e Computacional de la Universidade de Lisboa (Portugal). | |
![]() |
Banco de datos terminológicos UPF_TERM, proyecto financiado por la Direcció General de Política Lingüística, en el marco de proyectos de Normalització Lingüística del año 2001, y por el Pla de mesures de suport a la innovació i la qualitat docents de la Universitat Pompeu Fabra del año 2001. El objetivo de este proyecto es constituir un recurso electrónico para la consulta y difusión de los trabajos terminológicos elaborados por alumnos de la Facultad de Traducción e Interpretación, del IULA y de otros centros de trabajo e investigación de la UPF. Constituido inicialmente por trabajos elaborados con la aplicación Multiterm 95+, se han sistematizado y convertido al formato WebTerm 5.0. |
| RITerm-BD, financiado por Unión Latina, en el marco de las actividades de la red RITerm. Proyecto finalizado en 1996, cuyo objetivo era el análisis de la situación de la infraestructura y de la formación de la terminología en el ámbito de RITerm. Los resultados del proyecto pueden consultarse en forma de informes. | |
| POINTER (Proposals for an Operational Infrastructure for Terminology in Europe), patrocinado por la Unión Europea, en el marco de MLAP'94 (Multilingual Action Plan) y coordinado por la University of Surrey. Este proyecto, finalizado en 1995, tenía por objetivo la detección de necesidades y la evaluación de la infraestructura de la terminología en Europa. IULATERM participó en el subproyecto de formación en terminología, cuyos resultados se encuentran en POINTER Technical Reports (1995). |
© INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA - UNIVERSITAT POMPEU FABRA, Roc Boronat 138, 08018 Barcelona