2019.04.10

Euskal Herriko Twitter erabiltzaileen erradiografia labur bat

Zer hizkuntzatan hitz egiten dute Euskal Herriko Twitter erabiltzaileek? Eta nolako harremanak dituzte elkarren artean? Artikulu honetan, bi galdera horiei erantzuten dien Twitter erabiltzaileen erradiografia labur bat aurkezten dugu. Erradiografia egiteko, urrats hauek egin ditugu:

  • Lehenengo, Euskal Herriko Twitter erabiltzaileen lagin bat osatu dugu.
  • Ondoren, lagin horretako erabiltzaileen txioen hizkuntzak aztertu ditugu eskuz zein automatikoki.
  • Azkenik, erabiltzaile-komunitateak identifikatu ditugu automatikoki, erabiltzaileek elkarri egiten dizkioten birtxioak aztertuz.

Jarraian, urrats bakoitzean egindako lanak eta lortutako emaitzak azalduko ditugu.

Euskal Herriko Twitter erabiltzaileak identifikatuz

Euskal Herriko Twitter erabiltzaileen lagina osatzea ez da lan erraza, ez baitago Euskal Herriko erabiltzaileen erregistrorik. Mota honetako erregistro baten antzekoena UMAPeko erabiltzaileen zerrenda litzateke, baina zerrenda horretan Euskal Herriko erdal hiztunak falta dira.

Euskal Herriko Twitter erabiltzaileen lagina osatzeko, prozesu hau jarraitu dugu:

  1. Denbora batez Euskal Herriko eremuan geolokalizatuta zeuden txioak bildu, eta haien erabiltzaileak identifikatu.
  2. Aurreko pausuan identifikatutako erabiltzaileak eskuz errepasatu, Euskal Herrikoak ez direnak kentzeko. Horrela, lehenengo errolda sortu dugu (ErroldaOrek).
  3. ErroldaOrek erroldako erabiltzaileen lagun eta jarraitzaile maizkoenak bildu, eta, eskuz, Euskal Herrikoak identifikatu. Horrela, ErroldaOrek erroldaren bertsio hedatua sortu dugu (ErroldaOrekHed).
  4. ErroldaOrekHed erroldako erabiltzaileen lagun eta jarraitzaile maizkoenak bildu, eta, sailkatzaile gainbegiratu baten bidez  (ikasketa automatikoko algoritmoa geoErroldaHed erroldarekin trebatuta), Euskal Herrikoak identifikatu. Horrela, ErroldaOrekHedAuto errolda sortu dugu.

1. taula: Euskal Herriko erabiltzaileen errolden estatistikak

Euskal Herriko Twitter erabiltzaileek erabilitako hizkuntzak

Euskal Herriko Twitter erabiltzaileen hizkuntzen erabilera aztertu dugu lehenengo azterketa honetan. Batez ere, euskararen erabilera beste hizkuntzen aldean zenbatekoa zen jakin nahi genuen.

Azterketa hau egiteko ErroldaOrek eta ErroldaOrekHedAuto erroldetako erabiltzaileen txioak bildu genituen 2008ko ekainean. Bildutako txioen hizkuntza modu automatikoan identifikatu genuen. Gure hipotesia zen hizkuntza detektatzeko teknologiak eskaintzen zuela zehaztasun nahikoa hizkuntzen erabilera-mailak neurtzeko. Hipotesi hori egiaztatzeko, eskuz sailkatu ziren 2.000 txioren hizkuntzak (ikusi 2. taula). Hizkuntza identifikatzeko zenbait tresna eta konfigurazio aztertu eta gero, ikusi genuen automatikoki lortutako datuak eta eskuzkoak bat zetozela (ikusi 2. eta 3. taulak). Beraz, identifikazio automatikoak zehaztasun nahikoa lortzen du.

Erabilera-emaitzei dagokienez, gaztelania nagusi da Euskal Herriko Twitter erabiltzaileen artean. Bigarren hizkuntzarik erabiliena euskara da, baina alde handia dago batetik bestera. Frantsesa eta ingelesa paretsu daude. Guk sortutako erroldak direla eta, esan daiteke lagun- eta jarraitzaileharremanak ustiatuz hedatutako erroldak (ErroldaOrekHedAuto) baduela desbiderapen txiki bat erabiltzaile euskaldunen aldekoa (ikusi 4. taula). Horren arrazoia litzateke erabiltzaile euskaldunen (euskal hiztunak) harreman gehienak Euskal Herrikoak direla.

2. taula: ErroldaOrek erroldako erabiltzaileen 2.000 txioko lagin bat (2018ko ekainean bildutakoa), eskuz sailkatuta

3. taula: ErroldaOrek erroldako erabiltzaileen txioak (2018ko ekainean bildutakoak), automatikoki sailkatuta (langid)

4. taula: ErroldaOrekHedAuto erroldako erabiltzaileen txioak (2018ko ekainean bildutakoak), automatikoki sailkatuta (langid)

Euskal Herriko Twitter erabiltzaileen arteko harremanak

Sare sozialetan, mundu errealean edo fisikoan bezala, erabiltzaileak interes edo ezaugarri komunak dituzten beste erabiltzaile batzuekin erlazionatzen dira batez ere. Interes komun horiek era askotakoak izan daitezke: kirol-zaletasunak, kulturalak, politikoak, hizkuntzari dagozkionak… Ardatz horien inguruan, erabiltzaile-taldeak edo komunitateak osatzen dira.

Bigarren esperimentu honetan, Euskal Herriko erabiltzaile-komunitateak identifikatu nahi izan ditugu. Horretarako, birtxiokatzeak ustiatu ditugu, irizpide hori erabiltzen baita Twitterren komunitateak aurkitzeko. Birtxio batek erakusten duen bi pertsonaren arteko harremanaren aztarna horretatik abiatuta, posible da elkarrekin harreman handia duten erabiltzaile-taldeak identifikatzea.

ErroldaOrek eta ErroldaOrekHedAuto erroldetako erabiltzaileen birtxioak bildu ditugu denbora batez, eta corpus bana sortu. Corpus bakoitzeko birtxioen corpusetik grafo bat sortu dugu. Grafo honetako nodoak erabiltzaileak dira, eta ertzak birtxioak. Grafo honetako barneko koherentzia handiena duten nodo-multzoak identifikatuz aurkitzen ditugu erabiltzaile-komunitateak. Prozesu horren emaitzak 1. eta 3. irudietan agertzen dira. 2. eta 4. irudietan, grafoko ertzak kolore ezberdinetan margotu ditugu, birtxioen hizkuntzaren arabera.

1. irudia: ErroldaOrek erroldako erabiltzaile-komunitateak. Nodoak erabiltzaileak dira. Eragin handiko erabiltzaileen izenak erakusten dira. Komunitateak kolorez adierazita daude. Balizko Interpretazioa: marroi argiz,Nafarroako” komunitatea; berde ilunez, “euskalgintzaren” inguruko komunitatea; laranjaz, "Gipuzkoako kirol taldeen" inguruko komunitatea; urdin argiz, “Arabako” komunitatea; arroxa argiz, “kultura” eta “turismoaren” inguruko komunitatea; arroxa ilunez. “Bizkaiko” komunitatea; urdin ilunez eta marroi ilunez, komunitate "politikoak".

Hizkuntzen erabilera

2. irudia: ErroldaOrek erroldako erabiltzaile-komunitateak. Birtxioen hizkuntzak (ertzak) kolorez nabarmenduta daude (gaztelaniazkoak urdinez, euskarazkoak berdez, ingelesezkoak gorriz, eta fratsesezkoak arroxaz).

Erabiltzaileen komunitateak

3. irudia: ErroldaOrekHedAuto erroldako erabiltzaile-komunitateak. Nodoak erabiltzaileak dira. Komunitateak kolorez adierazita daude. Eragin handiko erabiltzaileen izenak erakusten dira. Balizko Interpretazioa: marroi argiz, “kiroletako” komunitatea; berde argiz, “Nafarroako” komunitatea; arroxaz, “euskalgintzaren” komunitatea; bioletaz, “euskalgintzaren” komunitatea; gorriz, “kultura eta turismoaren” inguruko komunitatea; berde ilunez eta urdinez, komunitate "politikoak".

Hizkuntzen erabilera
 

4. irudia: ErroldaOrekHedAuto erroldako erabiltzaile-komunitateak. Birtxioen hizkuntzak (ertzak) kolorez nabarmenduta daude (gaztelaniazkoak urdinez, euskarazkoak berdez, ingelesezkoak gorriz, eta fratsesezkoak arroxaz).

Erabiltzaile-komunitateak identifikatu ondoren, alderdi ugari azter daitezke, besteak beste, komunitateen kopurua, komunitateen tamainak, haien arteko harremanak, komunitate bakoitzeko harreman-irizpideak, liderrak, edota hizkuntzen erabilera. Esperimentu honetan, azaletik bada ere, alderdi hauek aztertu ditugu:

  • Komunitate bakoitzaren harreman-faktoreak (ikusi 1. eta 3. irudiak). Aurkitutako komunitateak gai hauen ingurukoak dira: politika, kirolak, hizkuntza, geografia, eta kultura.
  • Komunitateen tamainak (ikusi 1. eta 3. irudiak). Euskalgintza oso komunitate handia eta trinkoa da; Nafarroako komunitatea ere handia eta trinkoa da.
  • Komunitateen influencerak (eragin handiko erabiltzaileak): Influencer asko komunikabideak dira (ikusi 1. eta 3. irudiak). Hori azpimarratzeko modukoa da, sare sozialetan ere eragin handieneko eragileak paperezko hedabideak baitira.
  • Hizkuntzen erabilera komunitate bakoitzean (ikusi 2. eta 4. irudiak): hizkuntza bada faktore garrantzitsu bat komunitateak osatzerakoan. Frantsesaren kasuan nabarmena da hori (ikusi 2. irudia). Gaztelania da komunitateen arteko hizkuntzarik transbertsalena. Euskara erdibideko egoera batean dago.

Ondorioak

Artikulu honetan ikusi dugu posible dela eremu geografiko bateko (Euskal Herria) Twitter erabiltzaileen hizkuntza-erabilera modu automatikoan eta zehaztasun handiz neurtzea. Gainera, automatizazio horrek aukera ematen du txio-bilduma handiak eta etengabe prozesatzeko.

Halaber, ikusi dugu erabiltzaile-komunitateak identifikatzea oso tresna baliagarria dela era askotako azterketak egiteko; besteak beste, hizkuntzen erabilerarekin lotutakoak. Gainera, azterketa honetan aldagai gehiago sar daitezke (adibidez, generoa, tematika...) ondorio aberatsagoak lortzeko.