Le traducteur automatique intelligent d’Elhuyar.
Service de reconnaissance de la parole en basque et espagnol
Correcteur orthographique et grammatical en basque
Plateforme en ligne pour la création de dictionnaires spécialisés.
Dictionnaires en ligne : basque<>espagnol, basque<>français, basque<>anglais
Site Web de consultation de dictionnaires bilingues créés automatiquement par techniques de pivotement.
Site Web de consultation de deux grands corpus automatiquement compilés à partir d’Internet, l'un en basque et l'autre parallèle espagnol-basque.
Ce site Web vous permet de rechercher des mots ou des termes en basque sur Internet, mais les résultats s'affichent sous forme de requête de corpus avec les contextes du mot.
Moteur de recherche de langue basque, le seul qui vous permette de limiter les résultats à la langue basque.
ElhPolar_es
Spanish polarity lexicon.
ElhPolar_eu
Basque polarity lexicon.
Basque Opinon Dataset
Polarity annotated Basque sentences.
BEC2016 opinion dataset
Basque Election Campaign 2016 Opinion Dataset - BEC2016. 25.000 Tweets with entity level binary polarity annotations.
Behagunea Opinion datasets
Tweet collection about the DSS2016 Cultural capital project. Tweets annotated with polarity at message level (pos|neg|neu) i Basque (3000) and Spanish (4754).
EliXa polarity classification models (EliXa 1.0.x)
Models for polarity classification, trained over cultural domain (Behagunea) tweets.
Previous versions: v 0.9.x
EliXa resources (EliXa 1.0.x <=)
language specific resources: polarity lexicons and other resources for text normalization. We currently provide such resources for 4 languages; Basque (eu), Spanish (es), English (en) and French (fr). Also includes pos tagging models for ixa-pipe-pos tool.
Previous versions: v 0.9.x ( Ixa-pipes pos models not included)
Ixa-Pipes models for EliXa 0.9.x
Ixa-Pipes models used for lemmatization and POS tagging (1.5.0) by EliXa 0.9.x as default models.
Basque-English Parallel corpus
Basque-English parallel corpus automatically gathered using the PaCo2 tool.
Basque-Spanish Parallel corpus
Basque-Spanish parallel corpus automatically gathered using the PaCo2 tool. It contains 640K segments.
Elhuyar web corpus
Corpus of 186M tokens in Basque. Automatically crawled and cleaned from the Web.
Ref: Leturia, I. 2014. The Web as a Corpus of Basque. PhD Thesis. Faculty of Informatics, UPV/EHU. Donostia.
FMTODelh dataset
Basque version of the Facebook Multilingual Task Oriented Dataset (López de Lacalle et al., 2020). Train and Dev sets have been translated using NMT. Test set has been manually translated.
SNIPSeu dataset
SNIPS Dataset (Coucke A. et al., 2018) test set manually translated for Basque (López de Lacalle et al., 2021)
BHTC dataset
Basque Headlines Document Classification (BHTC) dataset. Collection containing 12,403 headlines extracted from the weekly newspaper Argia with topic annotations. Used for document classification task (Agerri et al., 2020).
GEC-elh-eu dataset
Grammatical Error Correction (GEC) dataset for Basque. 9 million synthetic sentence pairs (incorrect - correct) as train dataset. For evaluation synthethic examples (6,000) and manual revised examples (672) are provided. If you use it, cite (Beloki et al., 2020) paper.
Here you will find all the open source software we publish.
© 2018, Elhuyar - ht@elhuyar.eus - 943363040 - Avertissement légal - Politique de cookies