Lexikoaren Behatokiaren Corpusa

Zer da?

Gaur egun, zalantzarik gabe, hiztegia aztertzeko eta lan arauemailea egiteko, corpusetan oinarritu behar da, eta halaxe egin du Euskaltzaindiak azken urteotan. Testu klasikoak Orotariko Euskal Hiztegiaren corpusean ditu bilduta eta XX. mendeko lagin aski adierazgarria XX. mendeko corpus estatistikoan. Bi iturri horiek izan dira Hiztegi Batua egiteko oinarri nagusiak.

XXI. mendean sartuta gaude, ordea, eta euskara zorionez bizirik dago. Inoiz baino biziago, euskarazko testuen ekoizpenari dagokionez. Eta bizirik dagoenez, aldatuz ere joango da.

Hizkuntzaren bilakaera hurbiletik jarraitu beharra dago, hitz eta adierazmolde berriak ezagutzeko, arauak zenbateraino betetzen edo urratzen diren jakiteko, eta arauak hori guztia ezagututa finkatzeko, eta baita hizkuntzaren erabilera sakonago ezagutzeko, gramatika edo estilistika aldetik, erregistro desberdinen ezaugarriak aztertzeko edo ikuspegi soziolinguistikotik ikertzeko nahiz edukien ideologia, historia, etab. aztertzeko.

Horrek guztiak corpusgintzan lanean jarraitzea eskatzen du. Euskaltzaindiaren ametsa erreferentzia corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatua izatea da, eta badu esperantza amets hori hezurmamitzeko. Baliabide asko behar dira horretarako eta denbora ere bai.

Bitartean, Lexikoaren Behatokia izeneko egitasmo hau jarri du abian. Komunikabideek argitaratzen duten edo aireratzeko idazten duten materialarekin corpus monitore bat eraikitzea da helburua, hau da, hizkuntzaren erabilera hurbiletik jarraitzea ahalbidetuko duen corpus bat elikatzen eta automatikoki lematizatzen eta etiketatzen joatea.

Gaur egun Euskal Herrian badira tresnak eta ezagutza lan hori automatizatzeko, badirelako aspaldidanik arlo horretan ikerketan ari diren lantaldeak. Euskaltzaindiak bidelagun ditu talde horiek egitasmo honetan: EHUko Donostiako Informatika Fakultateko IXA taldea, Elhuyar Fundazioa eta UZEI.

Corpusa elikatzeko testuak lortzeko, berriz, hainbat komunikabiderekin hitzarmenak sinatu ditu Euskaltzaindiak.

Corpusa XMLn etiketatuta dago, eta TEI estandarrari jarraitu diogu.

2013. urtearen bukaeran 34.589.681 testu-hitz zeuzkan corpusak eta urtean-urtean handituz joango da.

Xehetasun gehiago