Traductor automático inteligente de Elhuyar.
Servicio de reconocimiento del habla en euskera y castellano
Corrector ortográfico y gramatical para el euskera
Plataforma online para la creación de diccionarios especializados.
Diccionarios online: euskera<>castellano, euskera<>francés, euskera<>inglés
Web de consulta de diccionarios bilingües creados de forma automática mediante técnicas de pivotaje.
Web de consulta de dos grandes corpus recopilados automáticamente de la web, uno de euskera y otro paralelo castellano-euskera.
Este sitio web ofrece la posibilidad de buscar palabras o términos en euskera en la web, pero los resultados se muestran como una consulta de corpus con los contextos de la palabra.
Buscador de euskera, el único que permite limitar los resultados al euskera.
ElhPolar_es
Diccionario de polaridad en Español.
ElhPolar_eu
Diccionario de polaridad en Euskera.
Basque Opinon Dataset
Collección de frases en Euskera con anotaciones de polaridad.
BEC2016 opinion dataset
Colección de tweets sobre la campaña electoral elecciones autonómicas CAV 2016. - BEC2016. 25.000 Tweets con anotaciones de polaridad (pos|neg) a nivel de entidades.
Dataset de opiniones Behagunea
Colección de tweets sobre la el proyecto de capitalidad cultural DSS2016. Tweets etiquetado con polaridad a nivel de mensaje (pos|neg|neu) en Euskera (3000) y Castellano (4754).
Modelos estadísticos de polaridad (EliXa 1.0.x)
Modelos de clasificación de polaridad, entrenados sobre tweets de dominio cultural (Behagunea).
Versiones anteriores:v 0.9.x
Recursos EliXa (EliXa 1.0.x <=)
Recursos para idiomas específicos: léxicos de polaridad y recursos para normalización de textos. El paquete incluye recursos para 4 idiomas: Euskera (eu), Español (es), Inglés (en) y francés (fr). Incluye también los modelos para el etiquetado lingüístico de la herramienta Ixa-pipes-pos.
Versiones anteriores: v 0.9.x (No incluye modelos para Ixa-pipe-pos)
Ixa-Pipes models for EliXa 0.9.x
Ixa-Pipes models used for lemmatization and POS tagging (1.5.0) by EliXa 0.9.x as default models.
Corpus paralelo Euskera-Inglés
Corpus paralelo Euskera-Inglés, recopilado automáticamente utilizando la herramienta PaCo2.
Corpus paralelo Euskera-Castellano
Corpus paralelo Euskera - Castellano, recopilado automáticamente utilizando la herramienta PaCo2. Contiene 640K segmentos.
Web corpus Elhuyar
Corpus en Euskera que contiene 186M de palabras. Descargado de la web y limpiado automácticamente.
Ref: Leturia, I. 2014. The Web as a Corpus of Basque. Tesis doctoral. Facultad de Informatika. UPV/EHU, Donostia.
FMTODelh dataset
Versión en Euskera de Facebook Multilingual Task Oriented Dataset (López de Lacalle et al., 2020). Las partes Train y Dev se han traducido mediante NMT, Mientras que el test ha sido traducido manualmente.
SNIPSeu dataset
Versión en Euskera del dataset Snips (Coucke A. et al., 2018) Test set traducido manualmente (López de Lacalle et al., 2021).
BHTC dataset
Dataset Basque Headlines Document Classification (BHTC). Colección de titulares en Euskera, que contiene 12,403 titulares extraídos del semanario Argia, con anotaciones de categoría temática. Utilizado en la tarea de clasificación de documentos (Agerri et al., 2020).
Dataset GEC-elh-eu
Dataset para corrección gramatical en Euskera. 9 millones de pares de frases (incorrecta - correcta) generadas sintéticamente como "train". Para evaluación se ofrecen ejemplos sintéticos (6.000) y corregidos manualmente (672). En caso de uso, citar la publicación (Beloki et al., 2020).
Aquí encontrarás todo el software que publicamos en codigo abierto.
© 2018, Elhuyar - ht@elhuyar.eus - 943363040 - Aviso legal - Política de cookies