ZIENTZIA ETA TEKNOLOGIAREN CORPUSA

Deskribapena:

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Argazki gehiago:

Informazio gehiago:

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

ztcorpusa.net gunean aurkezten dugun eta kontsulta daitekeen bertsioa corpus-proiektu zabal baten lehen emaitza da. Proiektu horretan diseinatu den corpusari eta corpusgintza-metodologiari buruzko informazio zehatza ZT corpusaren diseinua eta metodologia atalean duzu irakurgai.

Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko. Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.

Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusaren lehen bertsio honetan, 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira. Corpusgintza-lanak egiteko eta kudeatzeko, Corpusgile tresna garatu dugu; tresna horrek corpusa eratzeko urratsak hartzen ditu bere baitan, eta, etiketatze linguistikoa egiteko, IXA taldearen Eustagger eta Eulia tresnekin egiten du lan. ZT corpusa baliabide linguistikoa da, ez dokumentala; beraz, irudiak eta testu ez diren bestelako objektuak (ekuazio-editoreekin sortutako formulak, esaterako) ez dira corpusean adierazi, baina bai horien aztarna utzi, etiketa huts baten bidez.

Corpusa XMLn etiketatuta dago, eta TEI estandarrari jarraitu diogu.

Eskuz landutako testuak ez dira nolanahi hautatu. Izan ere, esana dugu orain Interneten aurkezten dugun bertsioa proiektu zabal baten parte dela, eta corpus-proiektu hori bi atalez osatua da:

  • Zientzia eta teknologiaren alorreko euskarazko testugintzaren adierazgarria izateko asmoz diseinatu den gune orekatua
  • Eskuragarritasunaren arabera corpuseratzen diren obrez edo obra-zatiez osatutako atal irekia

Gune orekatuan zein obra sartu behar den eta obra bakoitzetik zein testu-masa eta zein pasarte sartzen diren ere irizpide jakin batzuen arabera erabaki da. Horretarako, lehenik 1990-2002 bitarteko zientzia eta teknologiaren alorreko obren inbentarioa egin da. Hurrena, adierazgarritasuna edo 'oreka' bermatuko duen lagintze-eredu estatistikoa landu da, lehen azaldutako eremuan eta generoan oinarrituta. Adierazgarritasuna bermatzeko, kalkulatu da gune orekatuaren tamainak 5 milioi hitzekoa behar lukeela izan. Orain arte bildu eta etiketatu ditugun gune orekatuko obretakoak dira, hain zuzen ere, corpusaren lehen bertsioan eskuz zuzendu diren 1,9 milioi hitzak.

Corpusa etiketatzean, gune orekatuko laginak automatikoki prozesatu dira lehenik, eta gero eskuz landu, etiketatze-lana, egiturazkoa zein linguistikoa, aberasteko, zuzentzeko eta desanbiguatzeko. Gune orekatukoak ez diren testu-zatiak, berriz, automatikoki baizik ez dira prozesatu, baina prozesamendu hori gune orekatuko lanak amaitutakoan egin da, sistemak eskuz landutakotik 'ikasi' duena aplika dezan, etiketatze automatiko hobea lortzearren.

Corpusa kontsultatzeko interfaze ahaltsua antolatu dugu, eta erabiltzaileak era askotako bilaketa bakunak eta konplexuak egiteko aukera izango du, horretarako parametro-multzo zabala erabiliz: lema, testu-forma, kategoria, eremua, generoa, corpus-atala (eskuz zuzendua/corpus osoa)... Emaitzak bi eratakoak izan daitezke:

  • Batetik, bilagaiaren testuinguru labur lerrokatuak (KWIC edo konkordantziak), zenbait irizpideren arabera ordena daitezkeenak (dokumentua, lema, forma, aurreko eta ondoko testuingurua, eremua, generoa...); nahi izanez gero, agerraldi bakoitzaren testuinguru zabalagoa bistara daiteke (300 hitz), dagokion obraren erreferentziarekin batera
  • Bestetik, informazio kuantitatiboa: lemen eta formen agerraldien maiztasuna, horien aurretik edo ondoren agertzen diren lemen edo formen maiztasunak, eremu edo generoaren araberako banaketa, eta abar

Bi emaitza-mota horiek konbinatzeko aukera ere izango du erabiltzaileak. Kontsulta-interfazearen erabileraren informazioa Kontsulta-sistemaren laguntza atalean duzu.

ZT corpusaren lehen bertsioan sartu diren obrak direla eta, asko formatu digitalean jaso ditugu hainbat hornitzailerengandik, haiekin sinatutako hitzarmenei esker. Bihoazkie denei ere gure esker beroenak. Hemen duzu hornitzaileen zerrenda .

ZT corpusaren Interneteko bertsioa gizarteratzeko hiru modalitate antolatu ditugu:

  • Interneteko doako kontsulta: web gune hau bera da asmo horren gauzatzea
  • Ikerkuntzarako hitzarmen bidezko dohaintza: ikerkuntzan ari diren erakunde eta ikertzaile-taldeek doan eskura dezakete, hitzarmen bidez, eta ikerkuntzarako betiere
  • Ustiapen komertzialerako lizentzia bidezko banaketa: corpuseko datuak hiztegigintzan, hizkuntza-teknologietako aplikazioetan eta abarretan erabiltzeko aukera eskaini nahi dugu; 2007tik aurrera, corpusa ELDAren baliabideen artean egongo da, eta bertatik kudeatuko da corpusaren banaketa

Azken bi aukerak aitzindariak dira euskal corpusen alorrean, orain artean eratu diren corpusek ez baitute kontsulta-sistema puntuala beste erabiltze-aukerarik eskaintzen.

Hasieran esan bezala, Zientzia eta Teknologiaren Corpusa UPV/EHUko IXA taldearen eta Elhuyar Fundazioaren lankidetza-proiektua da. 2003. urtean hasi ziren oinarrizko diseinu-lanak, eta 2004-2006 bitartean lantalde zabal batek jardun du corpusgintzan (ZT corpusaren lantaldea). Hizking21 ikerketa estrategikoko proiektuaren barnean hasi zen egiten. Hizking21 proiektuak honako laguntza hauek jaso ditu: Eusko Jaurlaritzaren Industria Sailaren Etortek programa (2002-2004) eta Gipuzkoako Foru Aldundiaren Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea programa (2004). Bestetik, Zientzia eta Teknologiaren Corpusa-k Eusko Jaurlaritzaren Kultura Sailaren 2005eko Euskara eta Teknologia Berriak programaren eta 2006ko IKT programaren laguntza ere jaso du.