La investigadora de la UPC Marta Ruiz Costa-jussà rep un ajut Starting Grant per estudiar un sistema de traducció automàtica inclusiva

La investigadora Marta Ruiz Costa-jussà ha estat distingida amb ajut Starting Grant de l’European Research Council (ERC) per explorar nous mètodes de traducció automàtica de text i veu. Amb el projecte LUNAR estudiarà un sistema de traducció automàtica més eficient que els actuals que ofereixi qualitats similars per a llengües majoritàries i minoritàries.

04/09/2020

Fa anys que els diccionaris tradicionals han quedat obsolets. A la brossa, en algun racó empolsinat de la prestatgeria o, amb una mica més de sort, encaixats sota la pota d’una taula que balla. Les noves tecnologies n’han suplert la funció i l’han millorada, oferint consultes molt més ràpides i completes. De la mateixa manera, milers de traductors han vist com la seva professió s’ha transformat els darrers anys. S’ha automatitzat el procés més feixuc i farragós de traduir llargs textos i el talent humà es focalitza ara en aspectes més tècnics i abstractes del llenguatge, de moment difícils de comprendre per les màquines.

Els softwares de traducció automàtica són a tot arreu i fan possible un apropament cultural sense precedents, convertint de forma gairebé instantània textos i veu entre centenars d’idiomes. No obstant, encara hi ha molt marge de millora. Des del 2002, la Universitat Politècnica de Catalunya · BarcelonaTech (UPC) n’és tot un referent de la mà de professors dels departaments de Teoria del Senyal i Comunicacions i Ciències de la Computació com José B. Mariño, José A. R. Fonollosa i Lluís Màrquez. 

El projecte LUNAR
Recentment, la investigadora Marta Ruiz Costa-jussà, del Departament de Ciències de la Computació, ha guanyat un ajut d’1,5 milions d’euros del Consell Europeu de Recerca (ERC, per les seves sigles en anglès) per dur a terme una investigació en aquesta línia. Ruiz Costa-jussà ha coordinat amb èxit altres projectes nacionals i internacionals i ha rebut diversos guardons com els Google Faculty Research Awards de 2018 i 2019.

Amb el projecte Lifelong UNiversal lAnguage Representation - LUNAR s’investigaran diverses millores en els sistemes neuronals en què es basa la traducció automàtica des de l’any 2014. Aquest sistema, basat en l’aprenentatge profund (de l’anglès deep learning), va deixar enrere els sistemes de regles i l’estadístic en que es basava anteriorment. Els sistemes de regles necessitaven milers de regles i enormes diccionaris. Els sistemes estadístics necessitaven bancs de traduccions per a cadascun dels idiomes (dependència quadràtica). Tot i que els sistemes neuronals també tenen aquesta dependència amb els banc de traduccions, també ofereixen una alternativa a partir de la qual el sistema neuronal s’estableix un idioma intermig (com si fos una mena d’esperanto de naturalesa matemàtica) cap al qual i a partir del qual passen totes les traduccions. D’aquesta manera, tot el procés és més àgil (es passa a una dependència lineal) i de millor qualitat, al poder-se concentrar tots els esforços en la codificació i descodificació d’aquest idioma intermig.

No obstant, aquest mètode ―que és el que fan servir els gegants de la traducció automàtica─ presenta actualment algun inconvenient. Per exemple, en disposar d’un únic codificador i descodificador universal, els idiomes que han alimentat el sistema amb menys recursos es veuen incapaços d’obtenir traduccions tan riques com les que obtenen els idiomes amb més recursos. Es tracta de llengües minoritàries, o bé endèmiques de zones remotes on no s’ha produït una informatització tan completa de l’idioma.

Inclusivitat idiomàtica i traducció de veu
Concretament, el projecte LUNAR estudiarà una solució al problema dels idiomes infrarepresentats en les bases de dades de textos i àudios que alimenten el sistema. Tot establint codificadors i descodificadors específics per a cada idioma, l’objectiu és que la traducció des del llenguatge intermig sigui el més rica i complerta possible en qualsevol dels idiomes.

D’altra banda, el projecte LUNAR farà possible que aquest sistema també funcioni en la traducció automàtica de veu. Aquest aspecte serà sens dubte un dels més destacats ja que aconseguir-ho amb èxit suposaria un gran avenç en aquest camp d’investigació (és una funcionalitat que ni els gegants de la traducció automàtica encara no han pogut aplicar).

L’ètica en els sistemes de traducció automàtica
Finalment, des del projecte LUNAR es pren consciència del grapat de biaixos que existeixen en les traduccions automàtiques actuals. Es tracta del biaix geopolític, que consisteix en la infrarepresentació de llengües com les africanes o les asiàtiques que, com s’ha esmentat, resulta en pitjors traduccions des d’aquests idiomes; el biaix de gènere, que s’absorbeix inevitablement dels textos i àudios a partir dels quals s’alimenta el sistema i que impliquen que, per exemple, la paraula neutra anglesa “nurse” sempre es tradueixi en femení i “doctor” en masculí; i el biaix corporatiu, provocat pel fet que moltes d’aquestes dades provenen de grans corporacions que d’alguna manera influeixen en el rang de vocabulari i el tipus d’informació que utilitza el sistema. Els resultats de LUNAR no ignoraran aquests biaixos, sinó que en la mesura que sigui possible es reportaran i es mitigaran.


Joaquim SerraEl matemàtic Joaquim Serra, també distingit

En aquesta convocatòria dels Starting Grant, també ha rebut un ajut el matemàtic Joaquim Serra, alumni UPC, que treballa actualment a l'Escola Federal Politècnica de Zurich (ETH).

Amb els ajuts
Starting Grant, l'ERC fomenta la recerca de més alta qualitat a Europa mitjançant finançament competitiu i dona suport a la investigació fronterera impulsada per investigadors i investigadores en tots els camps, sobre la base de l'excel·lència científica.