Tres estudiants de doctorat de la UPC-ESEIAAT, premiats per la RAE per un algoritme que identifica neologismes tecnològics

Tres estudiants de doctorat de la UPC-ESEIAAT, premiats per la RAE per un algoritme que identifica neologismes tecnològics
+
Descarregar

D'esquerra a dreta, Pol Fontanes, Eva Maria Urbano i Víctor Martínez, amb sengles diccionari de la RAE

Tres estudiants de doctorat de l’Escola Superior d’Enginyeries Industrial, Aeroespacial i Audiovisual de Terrassa (ESEIAAT) de la UPC han dissenyat un algoritme de detecció automàtica de neologismes tecnològics. Amb aquest sistema han guanyat el segon premi de la hackathó ‘Neologismos y tecnicismos en el ámbito energético y medioambiental‘, organitzat per la Real Academia de la Lengua Española (RAE) i la Fundación Endesa.

17/06/2021

Els doctorands de l’Escola Superior d'Enginyeries Industrial, Aeroespacial i Audiovisual de Terrassa (ESEIAAT)  de la Universitat Politècncia de Catalunya · BarcelonaTech (UPC) Pol Fontanes, del Lightning Research Group (LRG)  de la UPC, i Víctor Martínez i Eva María Urbano, ambdós del grup de recerca Motion Control and Industrial Applications (MCIA), han estat guardonats pel seu projecte Algoritmo de Detección Automática de Neologismos (ADAN). El premi, dotat amb 1.500 euros, l’han guanyat a la hackató ‘Neologismos y tecnicismos en el ámbito energético y medioambiental', organitzada el mes de maig passat per la Real Academia de la Lengua Española i la Fundación Endesa, i en la qual van participar, via telemàtica, més de 400 persones. El repte, que forma part del projecte Lengua Española e Inteligencia Artificial (LEIA) de la RAE, consistia a proposar, en un temps rècord de 24 hores,  idees i projectes d’intel·ligència artificial per a l’estudi de neologismes i tecnicismes en el sector energètic i mediambiental.

Els treballs dels participants havien de resoldre qüestions com ara quines són les paraules d’ús més recent en el sector, quins tecnicismes s’utilitzen, quines han passat ja a l’ús mes general, quins estrangerismes són els més freqüents o si existeixen alternatives en espanyol a aquests estrangerismes. La proposta d’un algoritme de detecció automàtica de neologismes dels estudiants de doctorat Pol Fontanes, Víctor Martínez i Eva María Urbano, de l’ESEIAAT, ha estat valorat pel jurat de l’esdeveniment “pel grau de finalització, l’originalitat, l’exhaustivitat, l’automaticitat i la dificultat tècnica de les eines del projecte”, així com "per la viabilitat, el disseny i la usabilitat de les mateixes". Pol Fontanes cursa el doctorat en Enginyeria Elèctrica, imentre que Víctor Martínez i Eva María Urbano cursen el doctorat en Enginyeria Electrònica.

ADAN
El sistema ADAN es basa en la utilització d'algoritmes d'intel·ligència artificial i big data per processar textos i identificar les paraules susceptibles de ser neologismes. Per aconseguir-ho, ADAN fa servir tècniques anomenades de Natural Language Processing (NLP) amb les que és capaç d'analitzar morfològicament, sintàctica i semàntica els textos, per cercar els neologismes i estrangerismes, els significats dels quals són inferits pel context en cas de ser desconeguts.

ADAN treballa sobre un corpus de les publicacions científiques en espanyol més recents en l'àmbit de l'energia i el medi ambient, així com articles divulgatius publicats a la premsa especialitzada del sector. D'aquesta manera, el sistema capta l'aparició d'aquests nous termes tan aviat com aquests entren en ús, a més, també fa la traçabilitat de la freqüència en què apareix el terme. Tal com explica Eva Maria Urbano, "els algoritmes que hem utilitzat es basen en consultes a bases de coneixement i eines de traducció, que dedueixen si les paraules identificades inicialment com a neologismes són àmpliament acceptades en llengua espanyola o, ben al contrari, es tracta d'anglicismes o tecnicismes, dels quals s'han de proposar alternatives en espanyol o bé analitzar el seu significat segons el context".

Urbano afegeix que "abans de començar a treballar en el projecte, la RAE ens va fer veure la importància de generar estratègies intel·ligents per assegurar un enteniment correcte entre la màquina i la persona, amb la finalitat d'avançar cap a la integració de la tecnologia sense deixar de banda la riquesa del llenguatge".

L'algoritme ha estat dissenyat per a l'àmbit de l'energia i el medi ambient, però podria ser útil també en altres camps i altres llengües. 

En paraules de Santiago Muñoz Machado, director de la RAE: "els algoritmes són un assumpte important, perquè envaeixen amb molta velocitat el terreny de les ciències i les noves tecnologies [...] Cada dia les màquines parlen més i hi ha un nombre major de màquines que parlen i fan servir un idioma que no és necessàriament el que ha normativitzat la RAE, sinó que és l'idioma que han determinat els fabricants d'aquesta tecnologia"