English | Español | Euskara

Introducció i antecedents

L'ús d'ontologies o jerarquies lèxiques, que ofereixen representació d'informació semàntica d'unitats lèxiques (classes semàntiques i relacions lèxiques), es presenta com una estratègia robusta en Recuperació d'Informació (expansió de consultes, sistemes de cerca de resposta, mineria de dades), en Gestió del Coneixement (indexació de documents), Traducció Automàtica (representació lèxica d'interlingua) i en Extracció Automàtica de Terminologia (rellevança temàtica dels candidats).

Considerem pertinent abordar l'enriquiment d'un model d'ontologia, EuroWordNet (convertida pel seu ampli ús en lingüística computacional quasi en un estàndard), en àmbits especialitzats, per l'interès i oportunitat de desenvolupament de noves aplicacions en aquests àmbits especialitzats. I proposem fer-ho des de l'extracció automàtica de terminologia, tant en les adaptacions de temàtica com de llengua de l'eina YATE (Vivaldi 2001), perquè disposar d'un extractor de terminologia eficient i d'ampli abast ens ajudarà en la constitució i actualització de recursos terminològics bàsics també per a la resta de camps indicats (RI, TA, GC).

A més, els resultats de la investigació bàsica sobre unitats terminològiques en context de projectes anteriors vinculats (TEXTERM2 i RICOTERM2) ens mostren que la informació semàntica i la combinatòria lèxica són les més pertinents per a l'extracció automàtica en certs àmbits especialitzats, sobretot en els discursos d'humanitats i ciències socials, per tal com no presenten singularitats de caràcter morfològic ni sintàctic, ja que són més a prop del discurs no especialitzat o comú. D'altra banda, abordar l'adaptació d'una eina com YATE a una llengua tipològicament diferent, como el basc, ens obliga a prioritzar l'estratègia semàntica per damunt d'altres estratègies lingüístiques de l'extractor, sobretot pel consens existent de coneixements especialitzats entre llengües diferents (i en dret un marc jurídic compartit). Aquests elements ens serveixen d'hipòtesi de partida per justificar la necessària ampliació d'un recurs com EWN cap a àmbits especialitzats.

En projectes anteriors, La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES-PB-96-0293) TEXTERM. Textos especializados y terminología: selección y recuperación automática de la información (BFF-2000-0841), i TEXTERM2. Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada (FF2003-02111), s'ha comprovat empíricament l'adequació de la proposta teòrica per la qual es poden descriure i explicar les unitats amb valor terminològic com unitats del lèxic d'una llengua natural i basar-ne l'especificitat en la selecció de característiques semàntiques que s'activen en l'ús discursiu. En els textos es poden trobar pistes lingüístiques dels usos especialitzats. El coneixement especialitzat d'un text es pot formular en termes d'una xarxa de nusos de coneixement (representats per unitats lèxiques de caràcter terminològic o combinacions sintàctiques en les quals apareix com a mínim una d'aquestes unitats). Les pistes de les unitats que s'usen amb caràcter especialitzat poden ser de naturalesa diferent: ús d'unitats morfològiques i lèxiques específiques, freqüència d'ús d'unitats morfològiques i lèxiques amb relació al seu ús en discurs no especialitzat, combinacions sintàctiques específiques, canvis de valor sintàctics d'algunes peces lèxiques. Són les condicions pragmàtiques les que activen la selecció d'unes o altres característiques de les unitats lèxiques. Les unitats lèxiques amb valor terminològic, doncs, són activacions de possibles característiques contingudes en un lexicó. Aquests resultats han estat publicats en diferents articles i capítols de llibre del grup IULATERM.

En el vessant aplicat de la investigació, els desenvolupaments diversos de l'eina YATE (Vivaldi 2001) són fruit dels projectes anteriors del grup i d'algunes tesis doctorals vinculades a aquests projectes:

A TEXTERM (2000-2003) es va dissenyar l'eina, que combina informació morfològica (formants grecollatins), sintàctica (patrons estructurals) i semàntica (etiquetes procedents d'EuroWordnet) amb estratègies estadístiques, i es va construir la primera versió per al castellà i la medicina (tesi doctoral J. Vivaldi 2002) i les adaptacions per a medicina (català) i genoma humà (català i castellà).

Sota el paraigua de TEXTERM2 (2003-2006) s'ha realitzat una primera adaptació per al dret i en català (tesi doctoral O. Domènech 2006) i a RICOTERM-2 (2004-2007) s'han realitzat les adaptacions per a l'economia en català i en castellà (tesi doctoral en curs A. Joan) i s'ha publicat un manual d'adaptació de YATE a llengua i domini especialitzat (Joan, Lorente, Domènech, Estopà i Vivaldi 2006 en premsa).

L'adaptació de YATE a llengua i domini mitjançant l'enriquiment d'EuroWordNet es concentra en la revisió manual dels synsets d'EWN per a la identificació de relacions lèxiques pròpies d'àmbits especialitzats per a l'establiment de les anomenades Fronteres de Domini (FD) en el codi de YATE. Les limitacions d'EWN en temàtiques especialitzades obliga en moltes ocasions a introduir nous synsets per poder establir les FD corresponents a YATE. L'avaluació constant de l'eina, després de la introducció de noves FD, permet introduir noves millores paulatinament fins arribar als resultats desitjables de cobertura i precisió.

Objectius generals

Aquests antecedents immediats ens han ofert experiència suficient (i una metodologia de treball suficient) per poder abordar en un període de tres anys les següents tasques:

El detall d'aquestes tasques es pot simplificar en els objectius precisos següents:

Objectius de cada subprojecte i mecanismes de coordinació

Subprojecte 1 (UPF):

Subprojecte 2 (EHU):

Mecanismes de coordinació:

Data d'actualització: 12-12-2007