EHUko ikertzaile talde batek tresnak garatu ditu Internet euskerazko corpus lez erabilteko

Erabiltzailearen aurpegia Bizkaie! 2014ko urr. 8a, 00:00

Euskal Herriko Unibersidadeko (EHU) ikertzaile talde batek Internetera jo dau euskerazko corpusak sortzeko. Sarea iturri lez erabilteak bide emoten dau corpus handiak eskuz baino errazago lortzeko, baina, horretarako, tresna egokiak garatu behar dira, eta euskereak, orain, baditu, EHUko iturriek jakinarazo dabenez.

Idatzizko hizkuntzearen erreferentziazko laginak dira corpusak, testuen eta berben bilduma erraldoiak, eta askorentzat corpus berbea bera arrotza bada be, corpusak hizkuntza teknologien oinarrietan dagoz. Itzulpen automatikoko sistemak eta ahotsa ezagutzeko aplikazinoak ez litzatekez existiduko corpusik barik, ez eta gaur egungo hiztegi modernoak be.

Corpus hizkuntzalaritzan more data is better data esaten da, hau da, datu gehiago izatea datu hobeak izatea dala, eta kopuruari jagokonez, Internet da jaun da jaube. EHUko ikertzaileek ikerketa lanari ekin eutsienean, euskerazko corpus handienak 25 miloe berba zituan, gitxi, orain arteko corpusak eskuzko metodoen bidez sortuak baitira.

Beste hizkuntza batzuek 1990eko hamarkadan gainditu eben 100 miloe berben kopurua. Langa hori gainditzeko helburua jarri genduan, weba euskerazko corpusak sortzeko iturri egokia izan eitekeala aztertzen hasi ginanean, azaldu dau Igor Leturia ikertzaileak.

Aitatu mugea aspaldi gainditu eben hizkuntzek ez ditue eskuzko metodoen bidez sortu berba-multzo erraldoiak: web corpus lez hurrereaketea eginez eta tresna automatikoen bidez sortu ditue. Izan be, corpus tradizionalen mugarik handiena kostua da: eskulan handia eskatzen dau formatu eta toki desbardinetan dagozan testuak batzeak eta egokitzeak, horreetatik hizkuntzearen erreferentziazko berba-bildumak aterateko.

Internet, barriz, handia da, edozein hizkuntza, domeinu eta generotako testuak ditu, erraz erabilteko moduko formatu estandar batean, HTML formatuan, eta etenbarik eguneratzen da, gainera. Metodo automatikoak erabiliz corpusak webetik erauzteko, askoz azkarrago eta merkeago lortzen dira corpus askotariko, eguneratu eta handiak, azpimarratu dau Leturiak.

EHUko Informatika Fakultadeko Ixa ikerketa taldeak gidatuta Elhuyarren Hizkuntza eta Teknologia unidadean garatu dau Leturiak ikerlan hori, helburu bikotxagaz: batetik, frogatzea weba corpus lez metodologia baliogarria dala euskerazko berba-bilduma handiak, askotarikoak eta kalidade onekoak lortzeko, eta, bestetik, hori egiteko tresnak garatzea.

Ingelesez oso erraza da corpus handiak webetik ateratea -zehaztu dau-, baina euskerearen presentzia txikiagoa da webean, eta ez genkian neurri jakin batzuk edo corpus mueta batzuk lortzea posible izango zan. Leturia beste hizkuntzetan apliketan diran metodo automatikoetatik abiatu da bereak garatzeko, kontuan izanda euskereak dituan ezaugarriak, eta euskerearen ezaugarri horreetara egokitutako konponbideak bilatu ditu.


Lau arlo

EHUko ikertzaileak lau arlo landu ditu. Lehenengoan, frogatu dau posible dala weba zuzenean konsultetea, euskerazko corpus bat balitz lez, eta horretarako, bi tresna garatu ditu. Bat deklinazinoaren arazoa gainditzeko da: Bilatu nahi dan berbearen deklinazinoak eta aditz jokoak sortzen ditu tresneak, eta horreek bialtzen jakoz bilatzaileari, OR agindu baten barruan, euskerazko benetako emoitzak lortzeko, azaldu dau. Beste tresnea iragazki bat da, euskerazko testuak bakarrik itzul daizan sistemeak. Lan horren emoitzea da CorpEus bilaketa tresnea.

Bigarren arloan, erauzketa automatikoko crawling metodoari egindako egokitzapenen bidez, euskerazko corpus orokor bat sortu dau, webetik, baina ez 100 miloe berbakoa, 210 miloekoa baino. Web Corpusen Atarian dago konsultagarri. Saretik ateratako corpus hori tradizionalak baino handiagoa izaten da, eta informazino gehiago emoten dau berben ganean.

Leturiaren esanetan, corpus tradizionaletan dagozan berben % 95etik gora gurean be badagoz, eta, gainera, horreek jasoten ez dituen beste asko be bai. Zehatz, corpus tradizionalei egiten deutson berba barrien ekarpena % 85ekoa da.

Corpus orokorrak sortzeko ez eze, jakintza-arlo zehatz batzuetarakoak egiteko be baliogarria dan weba ikertu dau Leturiak, bai euskerako testu bilduma hutsak lortzeko, bai testu bilduma elebidunak eratzeko. Bi kasuetan, webetik ateratako domeinu corpusak eskuz sortutakoakaze parekagarriak izan dira. Informatikearen, partikulen fisikearen eta turismoaren arloko corpusekaz egin dau lan, besteak beste.

Gurea baino hiztun gehiagoko hizkuntza batzuk baino geroago eta baliabide gitxiagogaz abiatu ginan, baina beste toki batetik be begiratu ahal jako gaiari: hiztun askoko hizkuntza batzuk, ingelesa, adibidez, morfologikoki sinpleagoak dira automatikoki tratetako, testu masa handia dabe, eta estadistikea aplikatze hutsagaz oso emoitza onak lortzen ditue. Euskereak, barriz, testu-masa txikiagoa dauenez eta konplexuagoa danez tratamendu automatikorako, arazo gatxagoen aurrean jarri gaitu, eta aukerea emon deusku hizkuntza 'handiek' ez dituen tresna batzuk garatzeko. Alde horretatik, hizkuntzen teknologiaren arloari ekarpen originalak eta barritzaileak egiteko aukerea izan dogu, azaldu dau.

Leturiaren ustez, euskerarako ez eze, euskerearen antzeko beharrak eta ezaugarriak dituen beste hizkuntza batzuetarako be erabilgarriak dira garatutako tresnok.

Informatikan doktorea da Igor Leturia Azkarate, eta hizkuntza teknologien ikertzailea, gaur egun, Elhuyarren. EHUko Informatika Fakultadeko Ixa ikerketa taldeko Xabier Arregi eta Kepa Sarasola ikertzaileek gidatuta egin dau Weba euskerazko corpus lez doktore tesia.

Osorik irakurri