Lexikoaren Behatokiaren Corpusa

Kontsulta-sistemaren laguntza

Corpusaren kontsulta-adibideak

Corpusean dagoen informazioa ikusteko eta aztertzeko aukera ematen du kontsulta-sistemak. Hainbat aukera eskaintzen ditu kontsulta-sistemak. Hona adibide batzuk:

  • ibai hitzaren agerraldiak ikustea, testuan ondoan duen hitzaren arabera ordenatuta
  • garbi-z hasten diren lemak (bakunak zein hitz anitzekoak) ikustea (garbi, garbitu, garbitzaile, garbialdi, garbi-ikuzi, etab.), bakoitzaren maiztasunarekin eta agerraldiekin batera, horiek dokumentuaren, lemaren, kategoriaren, formaren, ondoko edo aurreko testuinguruaren eta dokumentuaren ezaugarri batzuen arabera ordenatuta eta multzokatuta ageri direla
  • argi hitzaren kategoriaren araberako erabilera-datuak ikustea (izena, adjektiboa, adberbioa)
  • ingurugiro hitzaren erabilera urtearen arabera nola aldatu den, ingurumen hitzaren erabilerarekin konparatzeko
  • eguraldi hitzaren ondorengo adjektiboak zein diren eta bakoitza zenbat aldiz erabili den ikustea (eguraldi on, eguraldi eder, eguraldi gaizto, eguraldi heze, etab.)
  • baita... ere hitz anitzeko unitatearen agerraldiak bistaratzea

Horrelako eta bestelako hainbat bilaketa egiteko aukera ematen du kontsulta-sistemak. Honen guztiaren helburua da erabiltzaileari erabilera errealaren testigantzak eta datuak ematea, hark nahi duen gaia edo alderdia azter dezan.

Corpusaren kontsulta-interfazearen egitura

Lexikoaren Behatokiaren corpusa kontsultatzeko sistemak bi bilaketa-mota ditu: bilaketa arrunta eta bilaketa aurreratua. Bilaketa arrunta egiteko tresna hauxe da:

Bilaketa arruntaren bilaketa-atala

1. irudia. Bilaketa arruntaren bilaketa-atala

  • Zer: lema edo forma eska daiteke
  • Konp.: lema edo forma hori osorik, hasieran nahiz bukaeran duten hitzen agerpenak eska litezke
  • Bilatu: lauki horretan idazten da bilatu nahi dena (lema edo forma osoa, hasiera edo amaiera); bilaketa berean bi lema edo forma bilatzea nahi badugu, "|" ikurraz bereizita idatzi behar dira (esaterako: "ingurugiro|ingurumen" sartuz gero, ingurugiro edo ingurumen lemak dituzten agerraldiak bistaratuko dira)
  • Kategoria: nahi izanez gero, kategoria gramatikala muga daiteke
  • Ordenatu honen arabera: emaitzak agertzeko era aukera daiteke hor: dokumentuen arabera, kategorien arabera, etab.

Adibidea:

  • Zer: Lema
  • Konp.: Da
  • Bilatu: jokalari
  • Kategoria: -
  • Ordenatu honen arabera: Ondoko testuingurua

Emaitzei dagokionean, lau emaitza mota daude:

  • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen, formen, lema/kategoria konbinazioen eta abarren zerrenda eta kopuruak (maiztasun-taula eta -grafikoa)
  • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen edo formen agerraldiak, KWIC edo 'konkordantzia' eran emanak; horien agerraldietan klik eginez, agerraldiaren erreferentzia (obra, egilea eta abar) eta testuinguru zabalagoa eskaintzen da aparteko leiho batean
  • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen edo formen kopuruak dokumentuka taldekatuta, tabulazioz banatutako CSV taula formatuan
  • Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen edo formen kopuruak dokumentuka taldekatuta, eta agerraldi guztiak KWIC eran emanak, tabulazioz banatutako CSV taula formatuan

Bilaketa arrunt lehenetsian, lehen bi emaitza-motak erakusten dira batera. Aurreko adibideari dagozkion emaitzak horrela agertzen dira:

Bilaketa arruntaren emaitza-atala

2. irudia. Bilaketa arruntaren emaitza-atala

Bilaketa aurreratuak aukera gehiago ematen ditu. Bilaketa aurreratuak egiteko tresna hauxe da:

Bilaketa aurreratuaren bilaketa-atala

3. irudia. Bilaketa aurreratuaren bilaketa-atala

Bilaketa arruntaren aukerez gain beste hauek ere eskaintzen ditu bilaketa mota honek:

  • Hitz batek baino gehiagok osatzen duten segida. Adibidez: zer dela eta. Kasu honetan zer, dela, eta formak bilatu nahi ditugu, ordena horretan eta tartean beste hitzik ez dela. Hortaz horrela egingo dugu kontsulta:
"zer dela eta" bilaketa

4. irudia. zer dela eta bilaketa

dela forma zer formaren ondoren eta distantzia 1 dela agertzea nahi dugulako eta ondoren 1eko distantzian eta forma. Emaitzak horrela agertuko dira:

"zer dela eta" bilaketaren emaitza

5. irudia. zer dela eta bilaketaren emaitza

  • Sistemak lehenetsitako analisia eskatutakoarekin bat ez datorren kasuak soilik erakustea. Ziurrak laukia markatuz gero, ez dira kontuan hartzen analisi hobetsia eskatutakoarekin bat ez datorren hitzen agerpenak, hau da, ez dira erakusten gorriz nabarmendutako agerpenak (ikus beherago).
  • Osagaietan: bai / ez. Marraz lotutako izen+izen elkarteak lematzat etiketatu dira (mahai-inguru, energia-iturri...), baina sistemak badu horrelako elkarteen osagaien informazioa. Horietako elkarte asko marrarik gabe ere idatzi ohi dira (energia iturri). Askotan, interesa izango dugu izen-izen elkarte baten agerraldiak bistaratzeko, marraz ala marrarik gabe idatzi diren kontuan hartu gabe (hau da, energia-iturri edo energia iturri terminoen agerraldiak bilaketa bakarrean lortu nahi ditugu). Horretarako, 'Osagaietan' laukian 'bai' aukeratu behar dugu. Aukera hori aktibatzen ez badugu, lehen errenkadan energia sartuz gero (forma zein lema), sistemak ez ditu energia-iturriren agerraldiak itzuliko (defektuzko lema energia-iturri osoa baita). Aukera honen beste erabilera bat: lehen edo bigarren osagaitzat izen jakin bat duten elkarteak bilatzea, bi izenak marraz zein marrarik gabe idatzita daudela. Esaterako, energia hitza izen+izen elkarte baten bigarren izena izanik, zein izenekin konbinatu den (haize+energia, eguzki+energia...) eta elkarte bakoitzaren maiztasuna.
"energia iturri" eta "energia-iturri" izen-elkarteen baterako bilaketa

6. irudia. energia iturri eta energia-iturri izen-elkarteen baterako bilaketa

  • Bilaketa corpusaren atal batean soilik egitea. Arlo, azpiarlo, erregistro, urte edo argitaratzaile jakin baten emaitzak soilik erakustea aukera dezakegu.
  • Emaitza mota bat aukeratzea. Aukera lehenetsiaz gain, lau emaitza moten artean zein nahi dugun aukeratu daiteke (ikus gorago). Maiztasun-taula eta -grafikoen kasuan, zein nahi ditugun ere zehatz dezakegu.

Lematizazio eta anotazio automatikoak

Testu-hitz bakoitzari lema eta kategoria automatikoki atxikitzen zaizkio. Horrela, mendiko, mendietan, mendiak, menditik ... formei sistemak automatikoki mendi lema atxikitzen die eta kategoria izena. Kasu honetan ez dago anbiguotasunik, beraz sistemak ez du zalantzarik egiten. Era horretako hitzak emaitzetan kolore berdez agertzen dira eta kurtsorea gainean jartzen bazaie horrelako lauki bat agertzen da:

"mendietan" hitzaren analisia

7. irudia. mendietan hitzaren analisia

Automatikoa dio, analisia era horretakoa izan delako. Sistemak ematen die aukera corpusa lantzen dutenei automatikoki egiten diren analisiak eskuz zuzentzeko ere.

mendi izena jartzen du azpian kategoria gramatikal hori atxiki diolako sistemak zalantzarik gabe hitzari.

Beste kasu batzuetan anbiguotasuna dago, baina sistemak analisietako bat hobesten du. Horrelakoetan laukia beste kolore batekoa izaten da, adibidez:

"argi" hitzaren analisia

8. irudia. argi hitzaren analisia

Izan ere, argi hitza izena, izenondoa, adberbioa edo argitu aditzaren aditzoina izan daiteke. Letra lodiz ageri da sistemak hobetsi duen analisia, adberbioa alegia. Testuingurua argi azaldu du zenez, sistemak ondo aukeratu du.

Ondorengo kasuan ere anbiguotasuna dago eta sistemak analisietako bat hobestean asmatu du (argitu aditzaren aditzoina dela esan du, zuzen). Baina, aurrekoan ez bezala, sistemak galdetu ez diogun analisietako bat hobetsi du (guk argi lemadun hitzak eskatu dizkiogu eta agerpen horren analisi posibleetako bat hori da, nahiz eta sistemak argitu lehenetsi duen). Horrelako kasuak gorriz erakusten dira:

"argi" hitzaren analisia

9. irudia. argi hitzaren analisia