Hizkuntza-baliabideak eta tresnak.

Web-zerbitzuak

  • Itzultzailea.eus

    Elhuyarren itzultzaile automatiko adimenduna.

  • Aditu.eus

    Euskarazko eta gaztelaniazko hizketa-ezagutza zerbitzua

  • Xuxen

    Euskarazko zuzentzaile ortografiko eta gramatikala

  • TermKate

    Hiztegi espezializatuak sortzeko onlineko plataforma.

  • Elhuyar hiztegiak

    Onlineko hiztegiak: euskara<>gaztelania, euskara<>frantsesa, euskara<>ingelesa

  • Hiztegi automatikoak

    Pibotaje-tekniken bidez automatikoki sortutako hainbat hiztegi elebidun kontsultatzeko webgunea.

  • Elhuyar web-corpusak

    Webetik automatikoki bildutako bi corpus handi kontsultatzeko webgunea (euskara hutseko bat eta gaztelania-euskara paralelo bat).

  • CorpEus

    Webean euskarazko hitzak edo terminoak bilatzeko aukera ematen du webgune honek, baina emaitzak corpus-kontsulta gisa erakusten ditu, hitzaren testuinguruekin.

  • Elebila

    Euskarazko bilatzailea, emaitzak euskarara mugatzea ahalbidetzen duen bakarra.

Deskargak

Iritzi-erauzketa - Sentimenduen Analisia

ElhPolar_es

Gaztelaniazko polaritate lexikoa.

ElhPolar_eu

Euskarazko polaritate lexikoa.

Basque Opinon Dataset

Polaritatea markatuta duten euskarazko esaldiak.

BEC2016 opinion dataset

EAEko 2016ko hauteskundeen inguruko iritzien bilduma. 25.000 Txio entitate mailako polaritate anotazioekin (pos|neg).

Behagunea Iritzien bilduma

DSS2016 Kultur hiriburutzaren inguruko txio bilduma. Euskaraz (3000) eta Gaztelaniaz (4754) idatzitako txioak, mezu mailako polaritate anotazioekin (pos|neg|neu).

EliXa polaritea sailkatzeko ereduak (EliXa 1.0.x)

Polaritatea sailkatzeko ereduak, kultura arloko (Behagunea) txioen gainean entrenatuak.
Aurreko bertsioak: v 0.9.x

EliXa baliabideak (EliXa 1.0.x <=)

Hizkuntzarekiko dependente diren baliabideak: polaritate lexikoak eta testuen normalizaziorako baliabideak. 4 hizkuntzatarako baliabideak ditu paketeak: Euskara (eu), Gaztelania (es), Ingelesa (en) eta Frantzesa (fr). Ixa-pipes-pos etiketatzeko linguistikoa egiteko beharrezko baliabideak ere barneratuta ditu.
Aurreko bertsioak: v 0.9.x (Ixa-pipe pos ereduak ez daude barne)

Ixa-Pipes models for EliXa 0.9.x

Ixa-Pipes models used for lemmatization and POS tagging (1.5.0) by EliXa 0.9.x as default models.

Corpusak

Euskara-Ingelesa corpus paraleloa

Euskara-Ingelesa corpus paraleloa, automatikoki bildua PaCo2 tresnarekin.

Euskara-Gaztelania corpus paraleloa

Euskara-Ingelesa corpus paraleloa, automatikoki bildua PaCo2 tresnarekin. 640K segmentu ditu.

Elhuyar web-corpusa

186 Milioi tokeneko euskarazko corpusa, webetik automatikoki bildutako eta garbitutako testuez osatua da.
Erref: Leturia, I. 2014. The Web as a Corpus of Basque. Doktorego-tesia. Informatika Fakultatea, UPV/EHU, Donostia.

Txabot-ak

FMTODelh dataset

Facebook Multilingual Task Oriented Dataset delakoaren euskarazko bertsioa (López de Lacalle et al., 2020). Train eta Dev atalak NMT bidez itzuliak izan dira, Test berriz eskuz itzulia da.

SNIPSeu dataset

Snips datasetaren (Coucke A. et al., 2018) euskarazko bertsioa (López de Lacalle et al., 2021). Test zatia banatzen da hemen, eskuz itzulia

Dokumentuen Sailkapena

BHTC dataset

Basque Headlines Document Classification (BHTC) dataseta. Euskarazko 12,403lerroburuko bilduma, Argia astekaritik erauzia, gaiaren araberako sailkapena dutelarik. Dokumentuen sailkapen atazan erabilia (Agerri et al., 2020).

Akats Gramatikalen Zuzenketa

GEC-elh-eu dataset-a

Euskarazko akats gramatikalen zuzenketarako dataset-a. 9 miloi esaldi bikote (akatsduna - zuzena) "train" atalean sintetikoki sortuak. Ebaluaziorako adibide sintetikoak (6.000) eta eskuz zuzendutakoak eskaintzen dira (672). Erabiliz gero aipatu (Beloki et al., 2020) artikulua.

Softwarea

  • Elhuyar @ Github

    Hemen aurkituko duzu kode irekian argitaratzen dugun software guztia.