Elhuyarren itzultzaile automatiko adimenduna.
Euskarazko eta gaztelaniazko hizketa-ezagutza zerbitzua
Euskarazko zuzentzaile ortografiko eta gramatikala
Hiztegi espezializatuak sortzeko onlineko plataforma.
Onlineko hiztegiak: euskara<>gaztelania, euskara<>frantsesa, euskara<>ingelesa
Pibotaje-tekniken bidez automatikoki sortutako hainbat hiztegi elebidun kontsultatzeko webgunea.
Webetik automatikoki bildutako bi corpus handi kontsultatzeko webgunea (euskara hutseko bat eta gaztelania-euskara paralelo bat).
Webean euskarazko hitzak edo terminoak bilatzeko aukera ematen du webgune honek, baina emaitzak corpus-kontsulta gisa erakusten ditu, hitzaren testuinguruekin.
Euskarazko bilatzailea, emaitzak euskarara mugatzea ahalbidetzen duen bakarra.
ElhPolar_es
Gaztelaniazko polaritate lexikoa.
ElhPolar_eu
Euskarazko polaritate lexikoa.
Basque Opinon Dataset
Polaritatea markatuta duten euskarazko esaldiak.
BEC2016 opinion dataset
EAEko 2016ko hauteskundeen inguruko iritzien bilduma. 25.000 Txio entitate mailako polaritate anotazioekin (pos|neg).
Behagunea Iritzien bilduma
DSS2016 Kultur hiriburutzaren inguruko txio bilduma. Euskaraz (3000) eta Gaztelaniaz (4754) idatzitako txioak, mezu mailako polaritate anotazioekin (pos|neg|neu).
EliXa polaritea sailkatzeko ereduak (EliXa 1.0.x)
Polaritatea sailkatzeko ereduak, kultura arloko (Behagunea) txioen gainean entrenatuak.
Aurreko bertsioak: v 0.9.x
EliXa baliabideak (EliXa 1.0.x <=)
Hizkuntzarekiko dependente diren baliabideak: polaritate lexikoak eta testuen normalizaziorako baliabideak. 4 hizkuntzatarako baliabideak ditu paketeak: Euskara (eu), Gaztelania (es), Ingelesa (en) eta Frantzesa (fr). Ixa-pipes-pos etiketatzeko linguistikoa egiteko beharrezko baliabideak ere barneratuta ditu.
Aurreko bertsioak: v 0.9.x (Ixa-pipe pos ereduak ez daude barne)
Ixa-Pipes models for EliXa 0.9.x
Ixa-Pipes models used for lemmatization and POS tagging (1.5.0) by EliXa 0.9.x as default models.
Euskara-Ingelesa corpus paraleloa
Euskara-Ingelesa corpus paraleloa, automatikoki bildua PaCo2 tresnarekin.
Euskara-Gaztelania corpus paraleloa
Euskara-Ingelesa corpus paraleloa, automatikoki bildua PaCo2 tresnarekin. 640K segmentu ditu.
Elhuyar web-corpusa
186 Milioi tokeneko euskarazko corpusa, webetik automatikoki bildutako eta garbitutako testuez osatua da.
Erref: Leturia, I. 2014. The Web as a Corpus of Basque. Doktorego-tesia. Informatika Fakultatea, UPV/EHU, Donostia.
FMTODelh dataset
Facebook Multilingual Task Oriented Dataset delakoaren euskarazko bertsioa (López de Lacalle et al., 2020). Train eta Dev atalak NMT bidez itzuliak izan dira, Test berriz eskuz itzulia da.
SNIPSeu dataset
Snips datasetaren (Coucke A. et al., 2018) euskarazko bertsioa (López de Lacalle et al., 2021). Test zatia banatzen da hemen, eskuz itzulia
BHTC dataset
Basque Headlines Document Classification (BHTC) dataseta. Euskarazko 12,403lerroburuko bilduma, Argia astekaritik erauzia, gaiaren araberako sailkapena dutelarik. Dokumentuen sailkapen atazan erabilia (Agerri et al., 2020).
GEC-elh-eu dataset-a
Euskarazko akats gramatikalen zuzenketarako dataset-a. 9 miloi esaldi bikote (akatsduna - zuzena) "train" atalean sintetikoki sortuak. Ebaluaziorako adibide sintetikoak (6.000) eta eskuz zuzendutakoak eskaintzen dira (672). Erabiliz gero aipatu (Beloki et al., 2020) artikulua.
Hemen aurkituko duzu kode irekian argitaratzen dugun software guztia.
© 2018, Elhuyar - ht@elhuyar.eus - 943363040 - Lege-oharra - Cookie-politika