Català | English |Español

Sarrera eta aurrekariak

Ontologiak, hau da, unitate lexikoen informazio semantikoaren errepresentazioa (klase semantikoak eta harreman lexikoak) eskaintzen duten hierarkia lexikoak erabiltzea estrategia boteretsua gertatzen da Informazioaren Erauzketan (kontsulten hedapena, erantzun-bilaketarako sistemak, datuen meatzaritza), Jakintzaren Kudeaketan (dokumentuen indexazioa), Itzulpen Automatikoan (interlinguaren adierazpen lexikoa) eta Terminologiaren Erauzketa Automatikoan (hautagaien pertinentzia tematikoa).

Egoki deritzogu EuroWordNet ontologia-eredua eremu espezializatuetan aberasteari (eredu horrek duen erabilera zabala dela eta, ia estandar bihurtu baita hizkuntzalaritza konputazionalean). Izan ere, aberaste horrek posible egin dezake alor espezializatu hauetan aplikazio berriak garatzea. Gure asmoa da terminologiaren erauzte automatikotik abiatzea aberaste-lan horretan, YATE (Vivaldi 2001) tresnaren alor tematikoaren eta hizkuntzaren araberako egokitzapena eginez. Izan ere, terminologia-erauzle eraginkorra eta estaldura handikoa izateak lagunduko digu oinarrizko baliabide terminologikoak eraikitzen eta gaurkotzen, baita aipaturiko eremuetarako (IE, IA, JK).

Gainera, lehenago bideratutako proiektuetan (TEXTERM2 eta RICOTERM2) unitate terminologikoen gainean egindako oinarrizko ikerketen emaitzek agerian uzten digute informazio semantikoa eta konbinatoria lexikoa direla estrategia emankorrenak zenbait alor espezializatutako erauzketa automatikoan, bereziki giza eta gizarte-zientzietako diskurtsoetan, zeren eta alor hauetako unitate terminologikoek ez baitute berezitasunik maila sintaktiko eta morfologikoan: hurbilago daude diskurtso orokorretik. Bestalde, YATE bezalako tresna bat tipologikoki desberdina den euskara hizkuntzara moldatzeak beharrezkoa egiten digu estrategia semantikoei lehentasuna ematea erauzlearen beste estrategia linguistiko batzuen aldean, batez ere hizkuntza desberdinen artean ere jakintza espezializatuari dagokionez adostasun handia baitago (zuzenbidearen kasuan, gainera, marko juridikoa partekatzen dute hizkuntza horiek). Elementu hauek abiapuntuko hipotesi modura erabiliko ditugu EWN baliabidea eremu espezializatu batzuetara zabaltzeko.

Aurreko proiektuetan, La terminología científico-técnica: reconocimiento, análisis y extracción de información formal y semántica (DGES-PB-96-0293) TEXTERM. Textos especializados y terminología: selección y recuperación automática de la información (BFF-2000-0841), y TEXTERM2. Fundamentos, estrategias y herramientas para el procesamiento y extracción automáticos de información especializada ( BFF2003-02111 ), enpirikoki egiaztatu da proposamen teoriko berri bat: balio terminologikodun unitateak hizkuntza naturalaren lexikoaren unitate gisa deskribatu eta azal daitezke eta haien espezifikotasuna erabilera diskurtsiboan aktibatzen diren tasun semantikoen hautapenean oinarritu daiteke. Testuetan zantzu linguistikoak aurki daitezke hitz bati balio espezializatuarekin erabiltzen ari dela agerian uzten dutenak. Testuen jakintza espezializatua adabegi-sare bat bailitzan formula daiteke. Jakintza-adabegi horiek izaera terminologikodun unitate lexikoek errepresentatzen dituzte edo, bestela, unitate terminologiko bat behintzat daramaten konbinazio sintaktikoek. Hainbat eratakoak izan daitezke balio espezializatua daramaten unitateen zantzuak: unitate morfologiko eta lexiko jakin batzuen erabilera, unitate morfologiko eta lexikoen erabilera-maiztasun bereizgarria diskurtso ez-espezializatuan duten erabileraren aldean, konbinazio sintaktiko bereizgarriak, zenbait pieza lexikoren balio sintaktikoen aldaketak. Baldintza pragmatikoek aktibatzen dute unitate lexikoen ezaugarri jakin batzuen hautapena. Balio terminologikodun unitate lexikoak, beraz, lexikoi batek dituen tasun posibleetako batzuen aktibazioaren ondorio dira. Emaitza hauek IULATERM taldearen hainbat artikulutan eta liburu-ataletan argitaratu dira.

Ikerketaren alderdi aplikatuan, YATE (Vivaldi 2001) tresnaren garapenak taldearen aurreko proiektuen eta proiektu horiekin loturiko zenbait doktoretza-tesiren emaitza dira:

TEXTERM (2000-2003) proiektuan erauzlea diseinatu zen. Tresna honek hainbat motatako informazioak konbinatzen ditu: informazio morfologikoa (erro grekolatinoak), informazio sintaktikoa (egitura-patroiak), semantika (EuroWordNet ezagutza-base lexikalaren etiketak) eta estrategia estatistikoak. Lehenengo bertsioa gaztelaniarako eta medikuntzarako eraiki zen (Vivaldiren doktoretza-tesia 2000). Moldapenak aldiz, medikuntzarako (katalana) eta giza genomarako (katalana eta gaztelania) eraiki ziren.

TEXTERM2 (2003-2006) proiektuaren barruan lehen moldapena egin da katalanez zuzenbide arlorako (Domènech-en doktoretza-tesia 2006) eta RICOTERM2 (2004-2007) proiektuan ekonomiarako egokitzapenak landu dira, katalanez eta gaztelaniaz (A. Joan-en doktoretza-tesia bukatzear). Bestalde, YATE eremu espezializatuetara eta hizkuntzaren arabera egokitzeko esku-liburua argitaratu da (Joan, Lorente, Domènech, Estopà y Vivaldi 2006 argitara bidean).

EuroWordNet aberastuz, YATE hizkuntza eta eremu desberdinetara moldatzeko, EWN-en sinonimo-multzoak (synsets) eskuz berrikusten dira eremu espezializatuen berezko harreman lexikoak identifikatzeko asmoz, zehazkiago, YATEren kodean Domeinu Mugak (DM) finkatzeko asmoz. EWN ezagutza-base lexikalak tematika espezializatuan duen garapen mugatua dela eta, askotan behartzen gaitu sinonimo-multzo berriak sartzera, posible izateko YATEn Domeinu Muga berriak ezartzea. Tresna etengabe ebaluatzen da DM berriak sartu ondoren eta, horrela, hobekuntzak sartzen joan gaitezke estalduran eta doitasunean desiragarriak diren emaitzak lortu arte.

Helburu orokorrak

Hurbileko aurrekari hauek esperientzia nahikoa (eta lan-metodologia eraginkorra) eman digute, hiru urteko tartean ondoko zeregin hauei ekin ahal izateko:

Zeregin hauek ondoko helburu xeheetan laburbil daitezke:

Azpiproiektu bakoitzaren helburuak eta koordinazio-mekanismoak

1 azpiproiektua (UPF):

2 azpiproiektua (EHU):

Koordinazio bideak:

Eguneratze-data: 29-03-2010